大数据技术原理与应用第十六章 Spark 学习指南

注：第十六章Spark，本章为2016年新增章节，不在2015年8月1日由人民邮电出版社出版发行的《大数据技术原理与应用》中，会被放入到教材的下一个版本中。

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第16章节，再结合本指南进行学习。

Spark快速入门指南 – Spark安装与基础使用主要对官方入门教程进行了翻译，可以帮助读者快速入门Spark，学习如下三部分内容。

一、安装 Spark

该部分介绍了单机中 Spark 的安装，并且介绍了在 Spark 中运行示例程序，帮助读者熟悉 Storm 的运行流程。该教程以 CentOS 6.4 作为演示环境，也可适用于 Ubuntu 系统。该教程的具体运行环境如下：

CentOS 6.4
Spark 1.6
Hadoop 2.6.0
Java JDK 1.7
Scala 2.10.5

Spark的安装过程较为简单，在已安装好 Hadoop 的前提下，经过简单配置即可使用。

使用 Spark Shell 编写代码

该部分介绍了 Spark Shell 的基本使用。Spark shell 提供了简单的方式来学习 API，也提供了交互的方式来分析数据。

Spark Shell 支持 Scala 和 Python，该部分教程选择使用 Scala 来进行介绍。

使用 sbt 打包 Scala 程序

该部分介绍了使用 sbt 打包 Scala 程序。Spark Shell 主要是方便编写、测试程序，一般程序写好后，会使用 sbt 打包成 jar 包，这样可以方便地提交到 Spark 中运行。使用 sbt 打包程序可能会遇到无法下载依赖包的情况，教程中有给出了解决方法，感兴趣的同学也可以浏览教程解决sbt无法下载依赖包的问题了解解决方法的详细说明。

Spark 官网提供了完善的学习文档，如果想要进一步学习，可以浏览如下内容：

如果想对 Spark 的 API 有更深入的了解，可查看的 Spark 编程指南（Spark Programming Guide）；
如果你想对 Spark SQL 的使用有更多的了解，可以查看 Spark SQL、DataFrames 和 Datasets 指南；
如果你想对 Spark Streaming 的使用有更多的了解，可以查看 Spark Streaming 编程指南；

厦大数据库实验室博客

一、安装 Spark

使用 Spark Shell 编写代码

使用 sbt 打包 Scala 程序