【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学信息学院计算机科学与技术系 2021级研究生宋姜豪
指导老师：厦门大学数据库实验室林子雨博士/副教授
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Scala版）》
【查看基于Scala语言的Spark数据分析案例集锦】

本案例针对淘宝数据进行分析，采用Scala为编程语言，采用Hadoop存储数据，采用Spark对数据进行处理分析，并对结果进行数据可视化。

一、实验目的

综合运用大数据处理框架Spark、Hadoop及数据可视化技术，对数据进行存储、处理和分析。

二、实验内容

完整实现数据分析全流程，具体如下：
(1)从网络上下载一个数据集；
(2)对数据集进行数据预处理（比如选取部分字段、进行格式转换等），然后保存到HDFS中；可以使用任意编程语言；
(3)使用Spark对数据进行分析(只能使用Scala语言,不能使用Python)，可以任意使用SparkCore、SparkSQL、SparkStreaming和SparkMLlib组件，只要使用了Spark编程知识即可；如果有需要，分析结果也可以选择保存到MySQL中；
(4)对分析结果进行可视化呈现，可以任意选择可视化方法（比如R语言可视化、网页可视化以及其他可视化方法），可以使用任意语言（包括Python、Java等在内的任意语言）。

三、实验过程

1、实验环境配置

本次实验使用的Linux操作系统为Ubuntu 18.04，需要提前配置好的环境有Hadoop 3.1.3、Spark 3.2.0、Scala 2.12.15、Python 3.6.9、Java 1.8.0_162、Sbt 1.6.2，需要用到的开发工具有IntelliJ IDEA 2022.1、Pycharm 2022.1，实验环境安装配置可以参考厦门大学数据库实验室博客完成。

2、下载数据集

从阿里云天池实验室下载数据集UserBehavior.csv
(下载链接为https://tianchi.aliyun.com/dataset/dataDetail?dataId=649)。也可以直接从百度网盘下载数据集（提取码：ziyu）。

该数据集包含了2017年11月25日至2017年12月3日之间，有行为的约一百万随机用户的所有行为fav（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下：

关于数据集大小的一些说明如下：

3、数据集预处理、保存至HDFS

1)数据集预处理
下载后的数据集占用空间3.41GB, 数据量过大，所以仅筛选出2017年11月25日至2017年12月3日时间段内前100w条收藏、加购、购买的用户行为作为本次实验的数据集，并对时间戳转换为具体时间。使用Python程序完成数据集的预处理将处理后的数据集并保存为Processed_UserBehavior.csv文件，处理后的csv文件约38.3MB。预处理相关代码截图如下：

2)数据集上传至HDFS
a、启动HDFS

b、在HDFS根目录下新建/dataset目录，将数据集Processed_UserBehavior.csv上传到该目录下

4、使用Scala语言编写Spark程序对数据进行分析

1)使用IDEA构建基于SBT的Scala项目，其中build.sbt文件如下图：

2)启动spark-shell,创建SparkContext和SparkSession对象。

3)从分布式文件系统HDFS中加载数据、将RDD转换为DataFrame。
从RDD转换得到DataFrame有两种方式，一是利用反射机制推断RDD模式，二是使用编程方式定义RDD模式。这里使用第一种方式将RDD转换为DataFrame，需要注意的是应提前定义case class,这样才能被spark隐式转换为DataFrame。

从csv文件到DataFrame的数据转换示意图如下：

4)使用spark对数据进行分析。
a、用户行为信息统计
经过数据集预处理后，用户行为被分为三种（buy:购买商品、cart:加入购物车、fav:收藏商品），使用DataFrame的分组聚合操作（groupBy）来统计这三种用户行为的数量、比例等信息。返回的结果是一个DataSet，将其转换为字符串后保存至result1.json文件。

b、销量前十的商品信息统计
根据商品的购买量来统计数据集内销量前十的商品。首先需要对用户的行为
进行过滤，筛选出用户购买商品的行为，然后相应的选择购买的商品id，之后将DataFrame转换为RDD,使用RDD相关操作来统计各商品销售数量，排序后取出销量前十的商品，将商品信息其转换为字符串后保存至result2.json文件。

该过程的RDD转换操作如下图：

c、购物数量前十的用户信息统计
根据商品的购买量来统计数据集内购物数量前十的用户。过滤出用户的购买行为后选择用户id属性，将DataFrame转换为RDD,使用RDD相关操作来统计每个用户id出现的次数，排序后取出出现次数最多的10个用户id，将用户id及购物数量转换为字符串后保存至result3.json文件。