其他

这里以关系数据库MySQL为例。首先，请参考厦门大学数据库实验室博客教程（Ubuntu安装MySQL），在Linux系统中安装好MySQL数据库。这里假设你已经成功安装了MySQL数据库。下面我们要新建一个测试Spark程序的数据库，数据库名称是“spark”，表的名称是“student”。
继续阅读

Spark2.0入门：读写Parquet(DataFrame)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了JSON、文本格式的加载，这里不再赘述。这里介绍Parquet，下一节会介绍JDBC数据库连接。

继续阅读

MLLib提供了一序列基本数据类型以支持底层的机器学习算法。主要的数据类型包括：本地向量、标注点（Labeled Point）、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵，以及基于一个或多个RDD的分布式矩阵。其中本地向量与本地矩阵作为公共接口提供简单数据模型，底层的线性代数操作由Breeze库和jblas库提供。标注点类型用来表示监督学习（Supervised Learning）中的一个训练样本。

继续阅读

Spark2.0入门从RDD转换得到DataFrame

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
Spark官网提供了两种方法来实现从RDD转换得到DataFrame，第一种方法是，利用反射来推断包含特定类型对象的RDD的schema，适用对已知数据结构的RDD转换；第二种方法是，使用编程接口，构造一个schema并将其应用在已知的RDD上。
继续阅读

Spark2.0入门：DataFrame的创建

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark2.0使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。

继续阅读

厦大数据库实验室博客

其他

Spark入门：基本的统计工具（1） – spark.mllib

Spark2.0入门：DataFrame与RDD的区别

Spark2.0入门 Spark SQL简介

Spark2.0入门：连接Hive读写数据（DataFrame）

Spark2.0入门：通过JDBC连接数据库(DataFrame)

Spark2.0入门：读写Parquet(DataFrame)

Spark入门：MLlib基本数据类型(2)

Spark入门：MLlib基本数据类型(1)

Spark2.0入门从RDD转换得到DataFrame

Spark2.0入门：DataFrame的创建