Author: Ruan Rongcheng

Spark2.1.0入门：DataFrame的创建(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。
继续阅读

Spark入门：DataFrame与RDD的区别(Python版)

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。
继续阅读

Spark入门: Spark SQL简介(Python版)

Spark SQL是Spark生态系统中非常重要的组件，其前身为Shark。Shark是Spark上的数据仓库，最初设计成与Hive兼容，但是该项目于2014年开始停止开发，转向Spark SQL。Spark SQL全面继承了Shark，并进行了优化。

继续阅读

Spark2.1.0+入门：读写HBase数据(Python版)

Spark处理的数据有很多是存放在HBase数据库中的，所以，我们需要学会如何读写HBase数据库。HBase是针对谷歌BigTable的开源实现，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半结构化的松散数据。HBase可以支持超大规模数据存储，它可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。如果要了解HBase的技术原理和使用方法，可以参考厦门大学数据库实验室的在线课程《HBase数据库》。

继续阅读

Spark 2.0分布式集群环境搭建(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。
本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2集群。
继续阅读

Spark入门：Spark的部署模式(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载。版权所有，侵权必究！
返回Spark教程首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

本节首先介绍Spark支持的三种典型集群部署方式，即standalone、Spark on Mesos和Spark on YARN；然后，介绍在企业中是如何具体部署和应用Spark框架的，在企业实际应用环境中，针对不同的应用场景，可以采用不同的部署应用方式，或者采用Spark完全替代原有的Hadoop架构，或者采用Spark和Hadoop一起部署的方式。

继续阅读

Spark入门：Spark运行架构(Python版)

本节首先介绍Spark的基本概念和架构设计方法，然后介绍Spark运行基本流程。
继续阅读

Spark简介(Python版)

继续阅读

子雨大数据之Spark入门教程(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！版权所有，侵权必究！
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》
本教程改编自林子雨老师编著《Spark入门教程（Scala版）》，本教程中内容均直接复制《Spark入门教程（Scala版）》，然后修改成Python语言版本。

说明：
（1）开发Spark应用程序时，可以采用Scala、Python、Java和R等语言，首选语言是Scala，因为Spark这个软件本身就是使用Scala语言开发的。如果想学习基于Scala的Spark入门教程，请访问《子雨大数据之Spark入门教程（Scala版）》
（2）本教程采用Python语言编写Spark应用程序，在知识安排上，首先学习Python编程，然后再学习Spark应用程序开发。如果读者此前没有学习过Python，建议首先学习厦门大学数据库实验室编写的《Python入门教程》

继续阅读

Spark2.1.0+入门：文件数据读写(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程(Python版)首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

除了可以对本地文件系统进行读写以外，Spark还支持很多其他常见的文件格式（如文本文件、JSON、SequenceFile等）和文件系统（如HDFS、Amazon S3等）和数据库（如MySQL、HBase、Hive等）。数据库的读写我们将在Spark SQL部分介绍，因此，这里只介绍文件系统的读写和不同文件格式的读写。
继续阅读