林子雨编著《Spark编程基础(Python版,第2版)》教材官网

Spark编程基础(Python版,第2版)教材官网

厦门大学 林子雨,郑海山,赖永炫  编著

林子雨(ziyulin@xmu.edu.cn)

披荆斩棘,在大数据丛林中开辟学习捷径

填沟削坎,为快速学习Spark技术铺平道路

深入浅出,有效降低Spark技术学习门槛

资源全面,构建全方位一站式在线服务体系

访问另外一本教材《Spark编程基础(Scala版,第2版)》官网

ISBN:978-7-115-64403-9 定价:69.80元 人民邮电出版社

2024年7月第2版

扫一扫访问本网页

Spark编程基础(Python版 第2版)

林子雨 主编,郑海山,赖永炫 副主编

(ISBN:978-7-115-64403-9,定价:69.8元 人民邮电出版社 2024年7月第2版)

样书申请

如果您是高校教师,可以扫描下面二维码申请样书:

扫码申请样书

下载专区

下载专区提供了与教材配套的各种资料的下载,包括讲义PPT(最新版本)、教学大纲、软件、数据集、代码、上机实验等。可以直接访问百度网盘地址:https://pan.baidu.com/s/11pS4ksJvEr6CnyjA-abWQw?pwd=ziyu
提取码:ziyu

教材中的代码

查看教材中的所有命令行和代码,可以直接复制粘贴运行。

教材简介

本书《Spark编程基础(Python版,第2版)》属于“进阶级”大数据课程,在学习本教程之前,建议首先学习入门级大数据课程《大数据技术原理与应用(第4版)》(教材官网)。《Spark编程基础(Python版,第2版)》和《大数据技术原理与应用(第4版)》两本教材之间在内容上实现了“无缝隙衔接”,可以帮助读者完成顺利完成入门学习和进阶学习。

本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共9章,内容包括大数据技术概述、Spark的设计与运行原理、大数据实验环境搭建、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Structured Streaming、Spark MLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、上机实验指南等。

本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的进阶级大数据课程教材,用于指导Spark编程实践,也可供相关技术人员参考。

教材目录

查看《Spark编程基础(Python版 第2版)》教材目录

作者简介

《Spark编程基础(Python版,第2版)》由林子雨、郑海山、赖永炫执笔,其中,林子雨负责教材规划、统稿、校对和在线资源创作,并撰写第1、2、3、4、5、6、7章的内容,郑海山负责第8章内容的撰写,赖永炫负责撰写第9章的内容。

林子雨(1978-),男,博士(毕业于北京大学),国内高校知名大数据教师,厦门大学计算机科学与技术系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,全国工业大数据行业产教融合共同体特聘专家,入选“2021年高校计算机专业优秀教师奖励计划”,荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”和“2018年福建省高等教育教学成果奖二等奖(个人排名第一)”,编著出版13本大数据系列教材,被国内500多所高校采用,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过2500万次,成为全国高校大数据教学知名品牌,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,主持的课程《Spark编程基础》获评“2021年国家级线上一流本科课程”。建设的大数据系列MOOC课程入选“2023年教育部国家智慧教育公共服务平台应用典型案例”。

慕课视频

厦门大学林子雨副教授主讲《Spark编程基础(Python版,第2版)》授课视频,请到B站观看

综合案例

(1)案例1:Spark+Kafka构建实时分析Dashboard(访问案例主页

本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

(2)案例2:淘宝双11数据分析与预测(访问案例主页

本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

(3)案例3:厦门租房信息分析展示(访问案例主页

本案例将实现一个系列程序,从厦门小鱼网爬取租房租金信息,然后利用spark的python版本进行简单分析,并利用echarts的python版本展示分析结果,此外还会简单介绍pycharm的工程建立,所以本篇将分为四个部分。

(4)案例4:基于 TMDB 数据集的电影数据分析(访问案例主页

本案例采用TMDB数据集,并使用Python语言编写Spark应用程序对电影数据进行各种分析。

(5)案例5:基于YELP数据集的商业数据分析(访问案例主页

本实验采用Python语言,使用大数据处理框架Spark对数据进行处理分析,并对分析结果进行可视化。

(6)案例6:2020年美国新冠肺炎疫情数据分析(访问案例主页

本案例以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言,使用Spark对数据进行分析,并对分析结果进行可视化。

(7)案例7:基于零售交易数据的Spark数据处理与分析(访问案例主页

本案例数据集是来自Kaggle的一个跨国在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。

(8)案例8:基于地震数据的Spark数据处理与分析(访问案例主页

本案例针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。

(9)案例9:基于信用卡逾期数据的Spark数据处理与分析(访问案例主页

本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。

先修课程(建议学习,不是必须)

Spark作为大数据进阶课程,在学习过程中会涉及大量相关的大数据基础知识以及各种大数据软件的安装和使用方法,包括Hadoop、HDFS、MapReduce、HBase、Hive等,只有具备这些入门级的大数据基础知识,才能够比较顺利地完成Spark课程的学习。因此,如果读者之前没有学习过这些基础知识,建议先学习《大数据技术原理与应用(第4版)》教材(官网),并观看与该教材配套的授课视频《大数据技术原理与应用》(观看)。《Spark编程基础(Python版,第2版)》和《大数据技术原理与应用(第4版)》两本教材之间在内容上实现了“无缝隙衔接”,可以帮助读者完成顺利完成入门学习和进阶学习。

当然,不事先学习《大数据技术原理与应用(第4版)》,也可以直接学习《Spark编程基础(Python版,第2版)》,因为,《Spark编程基础(Python版,第2版)》教程中,在每个章节中,对于读者可能遇到的“基础知识障碍”,都有给出某个具体知识点的相关链接(比如,在讲解Spark安装时,需要首先安装Hadoop,但是,读者可能不会安装Hadoop,这时,读者就可以访问教程中的“Hadoop的安装和使用”这个知识点链接,就可以顺利完成Hadoop的安装,跨过学习的障碍),读者只要按照链接进行有针对性的补充学习即可,不需要学习全部的《大数据技术原理与应用(Python版,第2版)》知识。

同时,厦门大学数据库实验室为《大数据技术原理应用(第4版)》教材编写了配套的实验指导书《大数据基础编程、实验和案例教程(第3版)》(官网),该实验指导书侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了丰富的实验和案例。

课程图片

点击这里观看在线视频