厦大数据库实验室博客 | 总结、分享、收获

Spark2.1.0入门：套接字流(DStream)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark Streaming可以通过Socket端口监听并接收数据，然后进行相应处理。
继续阅读

Spark2.1.0入门：文件流(DStream)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark支持从兼容HDFS API的文件系统中读取数据，创建数据流。
继续阅读

Spark2.1.0入门：连接Hive读写数据（DataFrame）

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Hive是基于Hadoop的数据仓库（要想了解更多数据仓库Hive的知识以及如何安装Hive，可以参考厦门大学数据库实验室的Hive授课视频、Hive安装指南）。本节内容介绍Spark如何连接Hive并读写数据。

继续阅读

淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为

《淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客》

开发团队：厦门大学数据库实验室联系人：林子雨老师ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的第五个步骤，利用Spark预测回头客。在实践本步骤之前，请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive，第二个步骤——Hive数据分析，和第三个步骤：将数据从Hive导入到MySQL，这里假设你已经完成了前面的这四个步骤。
继续阅读

淘宝双11数据分析与预测课程案例—步骤五:利用ECharts进行数据可视化分析

《淘宝双11数据分析与预测课程案例—步骤五:利用ECharts进行数据可视化分析》

开发团队：厦门大学数据库实验室联系人：林子雨老师ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的第四个步骤，利用ECharts进行数据可视化分析。在实践本步骤之前，请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive，第二个步骤——Hive数据分析，第三个步骤：将数据从Hive导入到MySQL和第四个步骤：利用Spark预测回头客行为。这里假设你已经完成了前面的这四个步骤。
继续阅读

淘宝双11数据分析与预测课程案例-步骤三:将数据从Hive导入到MySQL

《淘宝双11数据分析与预测课程案例—步骤三：将数据从Hive导入到MySQL》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的第三个步骤，将数据从Hive导入到MySQL。从数据导入到MySQL是为了后续数据可视化，服务端读取MySQL中的数据，渲染到前端ECharts页面。在实践本步骤之前，请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive，和第二个步骤——Hive数据分析。这里假设你已经完成了前面的这两个步骤。
继续阅读

Spark2.1.0入门：通过JDBC连接数据库(DataFrame)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

这里以关系数据库MySQL为例。首先，请参考厦门大学数据库实验室博客教程（Ubuntu安装MySQL），在Linux系统中安装好MySQL数据库。这里假设你已经成功安装了MySQL数据库。下面我们要新建一个测试Spark程序的数据库，数据库名称是“spark”，表的名称是“student”。
继续阅读

Spark2.1.0入门：读写Parquet(DataFrame)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了JSON、文本格式的加载，这里不再赘述。这里介绍Parquet，下一节会介绍JDBC数据库连接。

继续阅读

淘宝双11数据分析与预测课程案例-步骤二:Hive数据分析

《淘宝双11数据分析与预测课程案例---步骤二：Hive数据分析》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本文介绍大数据课程实验案例“淘宝双11数据分析与预测”的第二个步骤，Hive数据分析。在实践本步骤之前，请先完成该实验案例的第一个步骤大数据案例——本地数据集上传到数据仓库Hive。这里假设你已经完成了前面的第一个步骤。
继续阅读

淘宝双11数据分析与预测课程案例-步骤一：本地数据集上传到数据仓库Hive

《淘宝双11数据分析与预测课程案例—步骤一:本地数据集上传到数据仓库Hive》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”中将本地数据集上传到数据仓库Hive的工作。
继续阅读