淘宝双11数据分析与预测课程案例-步骤零:实验环境准备

大数据学习路线图

《淘宝双11数据分析与预测课程案例—步骤零:实验环境准备》

开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn

版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的实验环境准备工作。

需要注意的是,本网页介绍的所有软件安装,实际上,到了后面各个实验步骤中,还会再次提示并介绍如何安装这些软件。所以,本网页相当于是案例所需软件安装的一个汇总,读者可以根据本网页说明,先完成全部系统和软件的安装,再进入实验步骤一、二、三、四、五(这样,在后面步骤中就不需要重复安装这些软件),或者也可以忽略本网页内容,直接进入到后面的实验步骤一、二、三、四、五(但是,就需要到时候动手安装这些软件)。

所需知识储备

Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、数据仓库概念与原理、关系型数据库概念与原理、

训练技能

双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、Sqoop安装、Eclipse安装、ECharts安装、Spark安装。

任务清单

  1. 安装Linux系统
  2. 安装Hadoop
  3. 安装MySQL
  4. 安装Hive
  5. 安装Sqoop
  6. 安装Eclipse
  7. 安装ECharts
  8. 安装Spark

系统和软件环境要求

本案例的所有实验都在Linux操作系统下完成,需要涉及到以下软件(版本号仅供参考,可以使用不同版本):

Linux: Ubuntu14.04
MySQL: 5.7.16
Hadoop: 2.7.1
Hive: 1.2.1
Sqoop: 1.4.6
Spark: 2.1.0
Eclipse: 3.8
ECharts: 3.4.0

系统和软件的安装

Linux操作系统的安装

本案例实验全部在Linux系统下开展,因此,必须要安装好Linux系统。关于需要什么样的电脑硬件配置,以及如何安装Linux系统,请参考厦大数据库实验室在线教程《Linux系统安装》。

Hadoop的安装

本案例实验需要以Hadoop平台作为基础,关于如何安装Hadoop,请参考厦大数据库实验室博客《Hadoop安装教程:单机/伪分布式配置》。

MySQL的安装

本案例实验需要把数据存入关系型数据库MySQL,需要MySQL为Hive提供元数据存储服务,也需要MySQL为前端ECharts提供数据。因此,需要安装MySQL数据库。关于如何在Linux系统下安装MySQL数据库,请参考厦大数据库实验室博客《在Ubuntu下安装MySQL及其常用操作》。

Hive的安装

本案例实验需要安装数据仓库Hive,请参考厦大数据库实验室博客《Hive安装指南》来完成Hive的安装,并且使用MySQL数据库保存Hive的元数据。本教程安装的是Hive2.1.0版本,安装目录是“/usr/local/hive”。

Sqoop的安装

本案例实验需要安装Sqoop,该工具支持在Hadoop和其他数据库之间进行数据互导操作。请参考厦大数据库实验室博客Ubuntu安装Sqoop,完成Sqoop的安装。本教程下载的是sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz,安装目录是“/usr/local/sqoop”。虽然这个sqoop是为hadoop2.0.4版本开发的,本教程Hadoop版本是2.7.1,但是,依然可以顺利使用。

Eclipse的安装

本案例实验需要采用Eclipse开发Java程序,请参考厦大数据库实验室博客《分布式文件系统HDFS学习指南》,里面的“(三)、利用Java API与HDFS进行交互”中的“在Ubuntu中安装Eclipse”部分有详细介绍。

Echarts的安装

ECharts的安装将在实验步骤四“利用ECharts进行数据可视化分析”中再具体介绍。

Spark安装

本案例实验需要安装Spark,请参考厦大数据库实验室博客《大数据原理与应用 第十六章 Spark 学习指南》来完成Spark的安装。需要注意,这里我们Spark选择2.1.0的版本,而不是学习指南中的Spark 1.6.2版本, 因为只有Spark 2.0以后的版本才能支持Hadoop2.7。

环境准备结束,下面可以进入实验步骤一《淘宝双11数据分析与预测课程案例-步骤一:本地数据集上传到数据仓库Hive》。