大数据

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的第五个步骤，利用Spark预测回头客。在实践本步骤之前，请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive，第二个步骤——Hive数据分析，和第三个步骤：将数据从Hive导入到MySQL，这里假设你已经完成了前面的这四个步骤。
继续阅读

淘宝双11数据分析与预测课程案例—步骤五:利用ECharts进行数据可视化分析

《淘宝双11数据分析与预测课程案例—步骤五:利用ECharts进行数据可视化分析》

开发团队：厦门大学数据库实验室联系人：林子雨老师ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的第四个步骤，利用ECharts进行数据可视化分析。在实践本步骤之前，请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive，第二个步骤——Hive数据分析，第三个步骤：将数据从Hive导入到MySQL和第四个步骤：利用Spark预测回头客行为。这里假设你已经完成了前面的这四个步骤。
继续阅读

淘宝双11数据分析与预测课程案例-步骤三:将数据从Hive导入到MySQL

《淘宝双11数据分析与预测课程案例—步骤三：将数据从Hive导入到MySQL》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的第三个步骤，将数据从Hive导入到MySQL。从数据导入到MySQL是为了后续数据可视化，服务端读取MySQL中的数据，渲染到前端ECharts页面。在实践本步骤之前，请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive，和第二个步骤——Hive数据分析。这里假设你已经完成了前面的这两个步骤。
继续阅读

Spark2.1.0入门：通过JDBC连接数据库(DataFrame)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

这里以关系数据库MySQL为例。首先，请参考厦门大学数据库实验室博客教程（Ubuntu安装MySQL），在Linux系统中安装好MySQL数据库。这里假设你已经成功安装了MySQL数据库。下面我们要新建一个测试Spark程序的数据库，数据库名称是“spark”，表的名称是“student”。
继续阅读

Spark2.1.0入门：读写Parquet(DataFrame)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了JSON、文本格式的加载，这里不再赘述。这里介绍Parquet，下一节会介绍JDBC数据库连接。

继续阅读

淘宝双11数据分析与预测课程案例-步骤二:Hive数据分析

《淘宝双11数据分析与预测课程案例---步骤二：Hive数据分析》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本文介绍大数据课程实验案例“淘宝双11数据分析与预测”的第二个步骤，Hive数据分析。在实践本步骤之前，请先完成该实验案例的第一个步骤大数据案例——本地数据集上传到数据仓库Hive。这里假设你已经完成了前面的第一个步骤。
继续阅读