大数据技术原理与应用(第3版) 第2章 大数据处理架构Hadoop 实践指南

大数据学习路线图


点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用(第3版)》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

本指南介绍Linux的选择方案,并详细指引读者根据自己选择的Linux系统安装Hadoop。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用(第3版)》第2章,再结合本指南进行学习。

Hadoop是基于Java语言开发的,具有很好跨平台的特性。Hadoop的所要求系统环境适用于Windows,Linux,Mac系统,我们推荐选择使用Linux或Mac系统。Mac系统存在于苹果电脑上,由于Mac系统对硬件有定制化要求,没法在Windows上使用虚拟机和双系统来使用Mac系统,我们下面也会给出Mac系统安装Hadoop的相关教程。而Linux系统则可以在Windows上使用虚拟机或双系统安装使用。如果选择Linux,我们需要首先安装好Linux系统,然后在Linux系统的基础上,安装Hadoop。
本章需要用到的所有软件,可以到这些软件的官网下载,也可以直接点击这里从百度云盘下载各个软件(提取码:ziyu)。

一、Linux的选择

在Linux系统各个发行版中,Ubuntu系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以我们建议使用Ubuntu LTS 16.04或18.04。

下面我们给出Ubuntu系统的下载地址。

(一)下载地址

整体的系统安装文件较大(>1G),我们推荐使用支持断点下载的工具,比如迅雷,或者QQ旋风。点击下载工具链接,选择自己喜欢的下载工具

安装完上面的下载工具后,记得关闭浏览器,再重新打开浏览器访问本网页,下载下面的系统安装文件。

如果您的电脑比较老或者内存小于2G,那么建议您选择32位系统版本的Linux。如果内存大于4G,那么建议选择64位系统版本的Linux

  1. Ubuntu(推荐使用该系统)

    64位Ubuntu LTS 16.04的下载地址:点击下载
    64位Ubuntu LTS 18.04的下载地址:点击下载

(二)系统安装方式

选择虚拟机安装还是双系统安装: Linux系统的安装主要有两种方式:虚拟机安装和双系统安装,由于虚拟机安装和使用Linux的硬件配置比较高,我们建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装,电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装,否则,在配置较低的计算机上运行LInux虚拟机,系统运行速度会非常慢。鉴于目前教师和学生的计算机硬件配置一般不高,建议教师和学生在实践教学中也采用双系统安装。

  1. 虚拟机安装
    VirtualBox下载地址

    请参考安装指南:

    如果您的Windows系统使用非官方的破解版本,那么有可能出现VirtualBox不能打开新任务的错误,请参考下面的解决指南:
    解决VirtualBox不能打开新任务

  2. 双系统安装
    请参考安装指南:
    第一步:制定U盘启动安装
    第二步:双系统安装

    (三)熟悉 Linux系统的使用方法

    (1)上面完成了Linux系统的安装以后,如果读者是初次使用Linux系统,请熟悉一下Linux常用命令,参考链接:Linux系统的常用命令
    (2)如果在上面步骤中,读者采用了虚拟机的方式安装了Linux系统,可以学习一下如何在Windows和Linux之间互相传输文件,参考链接:在Windows系统中利用FTP软件向Ubuntu系统上传文件
    (3)在Linux系统中,经常需要解压缩文件,所以,读者需要学习文件的解压方法,参考链接:Linux系统中下载安装文件和解压缩方法
    (4)在Linux系统中,经常需要编辑文件,所以,读者需要学习vim编辑器的使用方法,参考链接:Linux系统中vim编辑器的安装和使用方法

二、Hadoop安装方式

Hadoop的安装方式有三种,分别是单机模式,伪分布式模式,分布式模式。

  • 单机模式:单机模式:Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。
  • 伪分布式模式:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。
  • 分布式模式:使用多个节点构成集群环境来运行Hadoop。

(一)、单机和伪分布式安装方式

在Ubuntu(16.04或18.04)系统上安装Hadoop请参考:

Hadoop安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04

(二)、分布式安装方式

在集群上分布式安装Hadoop,请参考:
Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu