《淘宝双11数据分析与预测课程案例—步骤零：实验环境准备》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的实验环境准备工作。

需要注意的是，本网页介绍的所有软件安装，实际上，到了后面各个实验步骤中，还会再次提示并介绍如何安装这些软件。所以，本网页相当于是案例所需软件安装的一个汇总，读者可以根据本网页说明，先完成全部系统和软件的安装，再进入实验步骤一、二、三、四、五（这样，在后面步骤中就不需要重复安装这些软件），或者也可以忽略本网页内容，直接进入到后面的实验步骤一、二、三、四、五（但是，就需要到时候动手安装这些软件）。

所需知识储备

Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、数据仓库概念与原理、关系型数据库概念与原理、

训练技能

双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、Sqoop安装、Eclipse安装、ECharts安装、Spark安装。

任务清单

安装Linux系统
安装Hadoop
安装MySQL
安装Hive
安装Sqoop
安装Eclipse
安装ECharts
安装Spark

系统和软件环境要求

本案例的所有实验都在Linux操作系统下完成，需要涉及到以下软件（版本号仅供参考，可以使用不同版本）：

Linux: Ubuntu14.04
MySQL: 5.7.16
Hadoop: 2.7.1
Hive: 1.2.1
Sqoop: 1.4.6
Spark: 2.1.0
Eclipse: 3.8
ECharts: 3.4.0

系统和软件的安装

Linux操作系统的安装

本案例实验全部在Linux系统下开展，因此，必须要安装好Linux系统。关于需要什么样的电脑硬件配置，以及如何安装Linux系统，请参考厦大数据库实验室在线教程《Linux系统安装》。

Hadoop的安装

本案例实验需要以Hadoop平台作为基础，关于如何安装Hadoop，请参考厦大数据库实验室博客《Hadoop安装教程:单机/伪分布式配置》。

MySQL的安装

本案例实验需要把数据存入关系型数据库MySQL，需要MySQL为Hive提供元数据存储服务，也需要MySQL为前端ECharts提供数据。因此，需要安装MySQL数据库。关于如何在Linux系统下安装MySQL数据库，请参考厦大数据库实验室博客《在Ubuntu下安装MySQL及其常用操作》。

Hive的安装

本案例实验需要安装数据仓库Hive，请参考厦大数据库实验室博客《Hive安装指南》来完成Hive的安装，并且使用MySQL数据库保存Hive的元数据。本教程安装的是Hive2.1.0版本，安装目录是“/usr/local/hive”。

Sqoop的安装

本案例实验需要安装Sqoop，该工具支持在Hadoop和其他数据库之间进行数据互导操作。请参考厦大数据库实验室博客Ubuntu安装Sqoop，完成Sqoop的安装。本教程下载的是sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz，安装目录是“/usr/local/sqoop”。虽然这个sqoop是为hadoop2.0.4版本开发的，本教程Hadoop版本是2.7.1，但是，依然可以顺利使用。

Eclipse的安装

本案例实验需要采用Eclipse开发Java程序，请参考厦大数据库实验室博客《分布式文件系统HDFS学习指南》，里面的“（三）、利用Java API与HDFS进行交互”中的“在Ubuntu中安装Eclipse”部分有详细介绍。

Echarts的安装

ECharts的安装将在实验步骤四“利用ECharts进行数据可视化分析”中再具体介绍。

Spark安装

本案例实验需要安装Spark,请参考厦大数据库实验室博客《大数据原理与应用第十六章 Spark 学习指南》来完成Spark的安装。需要注意，这里我们Spark选择2.1.0的版本，而不是学习指南中的Spark 1.6.2版本, 因为只有Spark 2.0以后的版本才能支持Hadoop2.7。