大数据技术原理与应用 第十六章 Spark 学习指南

大数据学习路线图

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

注:第十六章Spark,本章为2016年新增章节,不在2015年8月1日由人民邮电出版社出版发行的《大数据技术原理与应用》中,会被放入到教材的下一个版本中。

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第16章节,再结合本指南进行学习。


Spark快速入门指南 – Spark安装与基础使用主要对官方入门教程进行了翻译,可以帮助读者快速入门Spark,学习如下三部分内容。

一、安装 Spark

该部分介绍了单机中 Spark 的安装,并且介绍了在 Spark 中运行示例程序,帮助读者熟悉 Storm 的运行流程。该教程以 CentOS 6.4 作为演示环境,也可适用于 Ubuntu 系统。该教程的具体运行环境如下:

  • CentOS 6.4
  • Spark 1.6
  • Hadoop 2.6.0
  • Java JDK 1.7
  • Scala 2.10.5

Spark的安装过程较为简单,在已安装好 Hadoop 的前提下,经过简单配置即可使用。

使用 Spark Shell 编写代码

该部分介绍了 Spark Shell 的基本使用。Spark shell 提供了简单的方式来学习 API,也提供了交互的方式来分析数据。

Spark Shell 支持 Scala 和 Python,该部分教程选择使用 Scala 来进行介绍。

使用 sbt 打包 Scala 程序

该部分介绍了使用 sbt 打包 Scala 程序。Spark Shell 主要是方便编写、测试程序,一般程序写好后,会使用 sbt 打包成 jar 包,这样可以方便地提交到 Spark 中运行。使用 sbt 打包程序可能会遇到无法下载依赖包的情况,教程中有给出了解决方法,感兴趣的同学也可以浏览教程解决sbt无法下载依赖包的问题了解解决方法的详细说明。


Spark 官网提供了完善的学习文档,如果想要进一步学习,可以浏览如下内容: