Author: Ruan Rongcheng

Spark2.1.0入门：RDD队列流（DStream）(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

在调试Spark Streaming应用程序的时候，我们可以使用streamingContext.queueStream(queueOfRDD)创建基于RDD队列的DStream。
继续阅读

Spark2.1.0+入门：套接字流(DStream)(Python版)

Spark Streaming可以通过Socket端口监听并接收数据，然后进行相应处理。
继续阅读

Spark2.1.0+入门：文件流(DStream)(Python版)

Spark支持从兼容HDFS API的文件系统中读取数据，创建数据流。
继续阅读

Spark入门：DStream操作概述(Python版)

DStream是Spark Streaming的编程模型，DStream的操作包括输入、转换和输出。
继续阅读

Spark入门：Spark Streaming简介(Python版)

Spark Streaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。

继续阅读

Spark入门：流计算简介(Python版)

继续阅读

Spark2.1.0入门：连接Hive读写数据（DataFrame）(Python版)

Hive是基于Hadoop的数据仓库（要想了解更多数据仓库Hive的知识以及如何安装Hive，可以参考厦门大学数据库实验室的Hive授课视频、Hive安装指南）。本节内容介绍Spark如何连接Hive并读写数据。

继续阅读

Spark2.1.0入门：通过JDBC连接数据库(DataFrame)(Python版)

这里以关系数据库MySQL为例。首先，请参考厦门大学数据库实验室博客教程（Ubuntu安装MySQL），在Linux系统中安装好MySQL数据库。这里假设你已经成功安装了MySQL数据库。下面我们要新建一个测试Spark程序的数据库，数据库名称是“spark”，表的名称是“student”。
继续阅读

Spark2.1.0+入门：读写Parquet(DataFrame)(Python版)

Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了JSON、文本格式的加载，这里不再赘述。这里介绍Parquet，下一节会介绍JDBC数据库连接。
继续阅读

Spark2.1.0+入门：从RDD转换得到DataFrame(Python版)

Spark官网提供了两种方法来实现从RDD转换得到DataFrame，第一种方法是，利用反射来推断包含特定类型对象的RDD的schema，适用对已知数据结构的RDD转换；第二种方法是，使用编程接口，构造一个schema并将其应用在已知的RDD上。

继续阅读