大数据技术原理与应用第二章大数据处理架构Hadoop 学习指南

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明：本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料，版权所有，转载请注明出处，请勿用于商业用途】

本指南介绍Linux的选择方案，并详细指引读者根据自己选择的Linux系统安装Hadoop。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第2章节，再结合本指南进行学习。

Hadoop是基于Java语言开发的，具有很好跨平台的特性。Hadoop的所要求系统环境适用于Windows，Linux，Mac系统，我们推荐选择使用Linux或Mac系统。Mac系统存在于苹果电脑上，由于Mac系统对硬件有定制化要求，没法在Windows上使用虚拟机和双系统来使用Mac系统,我们下面也会给出Mac系统安装Hadoop的相关教程。而Linux系统则可以在Windows上使用虚拟机或双系统安装使用。如果选择Linux，我们需要首先安装好Linux系统，然后在Linux系统的基础上，安装Hadoop。
本章需要用到的所有软件，可以到这些软件的官网下载，也可以直接点击这里从百度云盘下载各个软件（提取码：99bg）。

一、Linux的选择

在Linux系统各个发行版中，CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高，网络上资料最是齐全，所以我们建议使用CentOS 6.4系统或Ubuntu LTS 14.04。

选择Ubuntu还是CentOS: 一般来说，如果要做服务器，我们选择CentOS或者Ubuntu Server；如果做桌面系统，我们选择Ubuntu Desktop。但是在学习Hadoop方面，虽然两个系统没有多大区别，但是我们强烈推荐新手读者使用Ubuntu操作系统。下面我们也会分别给出在CentOS和Ubuntu系统下安装Hadoop的教程。

下面我们给出两个系统的下载地址。

（一）下载地址

整体的系统安装文件较大(>1G)，我们推荐使用支持断点下载的工具，比如迅雷，或者QQ旋风。点击下载工具链接，选择自己喜欢的下载工具

安装完上面的下载工具后，记得关闭浏览器，再重新打开浏览器访问本网页，下载下面的系统安装文件。

如果您的电脑比较老或者内存小于2G，那么建议您选择32位系统版本的Linux。如果内存大于4G，那么建议选择64位系统版本的Linux

CentOS
32位CentOs 6.4的下载地址:
普通下载 | 迅雷下载 | 旋风下载

64位CentOs 6.4的下载地址:
普通下载 | 迅雷下载 | 旋风下载
Ubuntu(推荐使用该系统)
32位Ubuntu LTS 14.04的下载地址:点击下载

64位Ubuntu LTS 14.04的下载地址:点击下载

（二）系统安装方式

选择虚拟机安装还是双系统安装: Linux系统的安装主要有两种方式：虚拟机安装和双系统安装,由于虚拟机安装和使用Linux的硬件配置比较高，我们建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装，电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装，否则，在配置较低的计算机上运行LInux虚拟机，系统运行速度会非常慢。鉴于目前教师和学生的计算机硬件配置一般不高，建议教师和学生在实践教学中也采用双系统安装。

虚拟机安装
VirtualBox下载地址

请参考安装指南：
- 在Windows中使用VirtualBox安装Ubuntu
- 在Windows中使用VirtualBox安装CentOS
如果您的Windows系统使用非官方的破解版本，那么有可能出现VirtualBox不能打开新任务的错误，请参考下面的解决指南：
解决VirtualBox不能打开新任务
双系统安装
请参考安装指南：
第一步：制定U盘启动安装
第二步：双系统安装

（三）熟悉 Linux系统的使用方法

（1）上面完成了Linux系统的安装以后，如果读者是初次使用Linux系统，请熟悉一下Linux常用命令，参考链接：Linux系统的常用命令
（2）如果在上面步骤中，读者采用了虚拟机的方式安装了Linux系统，可以学习一下如何在Windows和Linux之间互相传输文件，参考链接：在Windows系统中利用FTP软件向Ubuntu系统上传文件
（3）在Linux系统中，经常需要解压缩文件，所以，读者需要学习文件的解压方法，参考链接：Linux系统中下载安装文件和解压缩方法
（4）在Linux系统中，经常需要编辑文件，所以，读者需要学习vim编辑器的使用方法，参考链接：Linux系统中vim编辑器的安装和使用方法

二、Hadoop安装方式

Hadoop的安装方式有三种，分别是单机模式，伪分布式模式，分布式模式。

单机模式：单机模式：Hadoop 默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单 Java 进程，方便进行调试。
伪分布式模式：Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。
分布式模式：使用多个节点构成集群环境来运行Hadoop。

（一）、单机和伪分布式安装方式

如果系统是Linux，请参照下面给出的教程进行安装：
在Ubuntu系统上安装Hadoop请参考：
（1）《大数据技术原理与应用（第2版）》教材请参考： Hadoop安装教程-单机-伪分布式配置-Hadoop2.6.0(2.7.1)-Ubuntu14.04(16.04)
（2）《大数据技术原理与应用（第3版）》教材（已经在2020年12月出版，教材官网）请参考：Hadoop安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)

在CentOS系统上安装Hadoop请参考：
Hadoop安装教程-伪分布式配置-CentOS6.4-Hadoop2.6.0

需要注意以下几点：
系统用户名使用hadoop
不要修改/etc/hosts 默认的localhost地址，如果已经修改请重新把127.0.0.1映射到localhost
如果系统是Mac，请参照下面给出的链接进行安装：
Mac 安装Hadoop教程-单机-伪分布式配置

（二）、分布式安装方式

（1）在集群上分布式安装Hadoop，请参考：
Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS

（2）使用Docker搭建Hadoop分布式集群，请参考实验室博客文章《使用Docker搭建Hadoop分布式集群》。

到此为止，Hadoop的安装指南已经结束，如果想学习第3章《Hadoop文件系统》，请参考第3章的学习指南：
大数据技术原理与应用第三章学习指南

厦大数据库实验室博客