厦大数据库实验室博客

Spark入门：Spark的部署模式(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载。版权所有，侵权必究！
返回Spark教程首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

本节首先介绍Spark支持的三种典型集群部署方式，即standalone、Spark on Mesos和Spark on YARN；然后，介绍在企业中是如何具体部署和应用Spark框架的，在企业实际应用环境中，针对不同的应用场景，可以采用不同的部署应用方式，或者采用Spark完全替代原有的Hadoop架构，或者采用Spark和Hadoop一起部署的方式。

继续阅读

Spark入门：Spark运行架构(Python版)

本节首先介绍Spark的基本概念和架构设计方法，然后介绍Spark运行基本流程。
继续阅读

Spark简介(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

继续阅读

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！版权所有，侵权必究！
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》
本教程改编自林子雨老师编著《Spark入门教程（Scala版）》，本教程中内容均直接复制《Spark入门教程（Scala版）》，然后修改成Python语言版本。

说明：
（1）开发Spark应用程序时，可以采用Scala、Python、Java和R等语言，首选语言是Scala，因为Spark这个软件本身就是使用Scala语言开发的。如果想学习基于Scala的Spark入门教程，请访问《子雨大数据之Spark入门教程（Scala版）》
（2）本教程采用Python语言编写Spark应用程序，在知识安排上，首先学习Python编程，然后再学习Spark应用程序开发。如果读者此前没有学习过Python，建议首先学习厦门大学数据库实验室编写的《Python入门教程》

继续阅读

Spark2.1.0+入门：文件数据读写(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程(Python版)首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

除了可以对本地文件系统进行读写以外，Spark还支持很多其他常见的文件格式（如文本文件、JSON、SequenceFile等）和文件系统（如HDFS、Amazon S3等）和数据库（如MySQL、HBase、Hive等）。数据库的读写我们将在Spark SQL部分介绍，因此，这里只介绍文件系统的读写和不同文件格式的读写。
继续阅读

Spark入门：共享变量(Python版)

Spark中的两个重要抽象是RDD和共享变量。上一章我们已经介绍了RDD，这里介绍共享变量。

在默认情况下，当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候，需要在多个任务之间共享变量，或者在任务（Task）和任务控制节点（Driver Program）之间共享变量。为了满足这种需求，Spark提供了两种类型的变量：广播变量（broadcast variables）和累加器（accumulators）。广播变量用来把变量在所有节点的内存之间进行共享。累加器则支持在所有不同节点之间进行累加计算（比如计数或者求和）。
继续阅读

Spark入门：Spark的部署模式(Python版)

Spark入门：Spark运行架构(Python版)

Spark简介(Python版)

子雨大数据之Spark入门教程(Python版)

Spark2.1.0+入门：文件数据读写(Python版)

Spark入门：共享变量(Python版)

Spark入门：键值对RDD(Python版)

Python：Python安装

Python: 简介

Python入门教程