大数据案例-步骤零:实验环境准备

大数据技术原理与应用

返回大数据案例首页
《大数据课程实验案例:网站用户行为分析—-步骤零:实验环境准备》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn
版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载

本教程介绍大数据课程实验案例“网站用户行为分析”的实验环境准备工作。

需要注意的是,本网页介绍的所有软件安装,实际上,到了后面各个实验步骤中,还会再次提示并介绍如何安装这些软件。所以,本网页相当于是案例所需软件安装的一个汇总,读者可以根据本网页说明,先完成全部系统和软件的安装,再进入实验步骤一、二、三、四(这样,在后面步骤中就不需要重复安装这些软件),或者也可以忽略本网页内容,直接进入到后面的实验步骤一、二、三、四(但是,就需要到时候动手安装这些软件)。

所需知识储备

Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、关系型数据库概念与原理

训练技能

双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、HBase安装、Sqoop安装、Eclipse安装

任务清单

  1. 安装Linux系统
  2. 安装Hadoop
  3. 安装MySQL
  4. 安装HBase
  5. 安装Hive
  6. 安装Sqoop
  7. 安装R
  8. 安装Eclipse

系统和软件环境要求

本案例的所有实验都在Linux操作系统下完成,需要涉及到以下软件(版本号仅供参考,可以使用不同版本):

Linux: Ubuntu14.04
MySQL: 5.7.16
Hadoop: 2.7.1
HBase:1.1.2
Hive:1.2.1
Sqoop:1.4.6
R:3.2.3
Eclipse:3.8

系统和软件的安装

Linux操作系统的安装

本案例实验全部在Linux系统下开展,因此,必须要安装好Linux系统。关于需要什么样的电脑硬件配置,以及如何安装Linux系统,请参考厦大数据库实验室在线教程《Linux系统安装》。

Hadoop的安装

本案例实验需要以Hadoop平台作为基础,关于如何安装Hadoop,请参考厦大数据库实验室博客《Hadoop安装教程:单机/伪分布式配置》。

MySQL的安装

本案例实验需要把数据存入关系型数据库MySQL,同时,也需要安装MySQL为Hive提供元数据存储服务,因此,需要安装MySQL数据库。关于如何在Linux系统下安装MySQL数据库,请参考厦大数据库实验室博客《在Ubuntu下安装MySQL及其常用操作》。

HBase的安装

本实验需要把数据存入HBase,关于如何在Linux中安装HBase,请参考厦大数据库实验室博客Ubuntu安装HBase及常用操作,完成HBase的安装。本教程把HBase安装在了“/usr/local/hbase”目录下,采用伪分布式配置,也就是HBase会使用HDFS来存储数据。

Hive的安装

本案例实验需要安装数据仓库Hive,请参考厦大数据库实验室博客《Hive安装指南》来完成Hive的安装,并且使用MySQL数据库保存Hive的元数据。本教程安装的是Hive2.1.0版本,安装目录是“/usr/local/hive”。

Sqoop的安装

本案例实验需要安装Sqoop,该工具支持在Hadoop和其他数据库之间进行数据互导操作。请参考厦大数据库实验室博客Ubuntu安装Sqoop,完成Sqoop的安装。本教程下载的是sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz,安装目录是“/usr/local/sqoop”。虽然这个sqoop是为hadoop2.0.4版本开发的,本教程Hadoop版本是2.7.1,但是,依然可以顺利使用。

R的安装

R的安装将在实验步骤四“利用R进行数据可视化分析”中再具体介绍。

Eclipse的安装

本案例实验需要采用Eclipse开发Java程序,请参考厦大数据库实验室博客《分布式文件系统HDFS学习指南》,里面的“(三)、利用Java API与HDFS进行交互”中的“在Ubuntu中安装Eclipse”部分有详细介绍。

环境准备结束,下面可以进入实验步骤一《大数据案例-步骤一:本地数据集上传到数据仓库Hive》。

返回大数据案例首页