厦大数据库实验室博客

淘宝双11数据分析与预测课程案例-步骤一：本地数据集上传到数据仓库Hive

《淘宝双11数据分析与预测课程案例—步骤一:本地数据集上传到数据仓库Hive》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”中将本地数据集上传到数据仓库Hive的工作。
继续阅读

淘宝双11数据分析与预测课程案例-步骤零：实验环境准备

《淘宝双11数据分析与预测课程案例—步骤零：实验环境准备》

开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的实验环境准备工作。
继续阅读

Spark2.1.0入门：从RDD转换得到DataFrame

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
Spark官网提供了两种方法来实现从RDD转换得到DataFrame，第一种方法是，利用反射来推断包含特定类型对象的RDD的schema，适用对已知数据结构的RDD转换；第二种方法是，使用编程接口，构造一个schema并将其应用在已知的RDD上。
继续阅读

Spark2.1.0入门：DataFrame的创建

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。

继续阅读

淘宝双11数据分析与预测课程案例-步骤一：本地数据集上传到数据仓库Hive

淘宝双11数据分析与预测课程案例-步骤零：实验环境准备

Spark2.1.0入门：从RDD转换得到DataFrame

Spark2.1.0入门：DataFrame的创建

Spark2.1.0入门：Apache Kafka作为DStream数据源

Spark2.1.0入门：把Flume作为DStream数据源

利用开发工具IntelliJ IDEA编写Spark应用程序（Scala+Maven）

Spark2.1.0入门：读写HBase数据

Spark2.1.0入门：文件数据读写

Spark入门：共享变量