林子雨主讲《大数据处理技术Spark》2017班级主页

中国高校大数据课程公共服务平台LOGO(图上文下)

本班级是“中国高校大数据课程公共服务平台”的九大工程中的“6号子工程”

全力打造中国高校大数据教学示范班级

厦门大学研究生课程

《大数据处理技术Spark》2017班级主页

全面系统讲解Spark技术及其编程方法

时间地点:每周三晚上7点10分  两节课  海韵教学楼107教室

主讲人:厦门大学计算机科学系  林子雨  博士/助理教授

(E-mail: ziyulin@xmu.edu.cn, 个人主页:http://www.cs.xmu.edu.cn/linziyu)


课程简介|教师简介|示范班级|公告板|课程教材|教学大纲| 教学进度表 |讲义PPT下载|课后作业|拓展学习|班级相册


%e5%a4%a7%e6%95%b0%e6%8d%ae%e5%a4%84%e7%90%86%e6%8a%80%e6%9c%af2017%e7%8f%ad%e7%ba%a7%e4%b8%bb%e9%a1%b5%e4%ba%8c%e7%bb%b4%e7%a0%81

(扫一扫手机访问本主页)

IMG_0576

课程简介

课程名称:《大数据处理技术》

课程性质:校级研究生选修课

面向对象:校级选修课,面向全校各院系研究生同学开放,欢迎并建议计算机相关专业研究生同学选修

课程难度:入门级,零基础(课程采用林子雨编著的入门级精品教材,丰富的教材配套资源帮助学生实现“零基础”学习大数据)

授课教师:林子雨

开课学期:2017年春季学期(2月到6月)

课程学时:每周2节,共16周,32学时,2学分

上课时间:每周三晚上7点10分 两节课

上课教室:海韵教学楼107教室

课程助教:厦门大学数据库实验室2015级硕士研究生阮榕城同学(E-mail: ruanrc@qq.com)

班级主页:http://dblab.xmu.edu.cn/post/7659/

 教师简介

厦门大学,计算机科学系,数据库实验室,林子雨

林子雨,男,1978年出生,博士(毕业于北京大学),现为厦门大学计算机科学系助理教授(或者“讲师”),海峡云计算与大数据应用研究中心副主任。曾任晋江市发展和改革局副局长、厦门大学信息科学与技术学院院长助理。中国高校首个“数字教师”提出者和建设者,O2O大数据教学理念提出者和践行者,中国高校首个大数据课程公共服务平台建设者,厦门大学数据库实验室负责人,厦门大学云计算与大数据研究中心主要建设者和骨干成员,中国计算机学会数据库专业委员会委员,中国计算机学会信息系统专业委员会委员,荣获“2016中国大数据创新百人”称号。于2001年获得福州大学水利水电专业学士学位,2005年获得厦门大学计算机专业硕士学位,2009年获得北京大学计算机专业博士学位。主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与发展》等国家重点期刊以及国际学术会议上发表多篇学术论文。作为项目负责人主持的科研项目包括1项国家自然科学青年基金项目(No.61303004)、1项福建省自然科学青年基金项目(No.2013J05099)和1项中央高校基本科研业务费项目(No.2011121049)。主讲厦门大学本科生课程《数据库系统原理》、《大数据技术原理与应用》、《C语言程序设计》、《计算机基础》和研究生课程《分布式数据库》、《大数据处理技术》,在教学过程中形成班级网站、结课仪式、师生互动等创新性教学模式方法,志愿编写了多本服务计算机系全体教师教学工作的教学指南;因在教学领域的突出贡献和学生的认可,成为2013年度厦门大学教学类奖教金获得者,并获得由厦门大学计算机系2012级全体硕士研究生集体赠送的“铭记师恩牌匾”。中国高校首个“数字教师”提出者和建设者,2009年至今,“数字教师”大平台累计向网络免费发布超过100万字高价值的研究和教学资料,累计网络访问量超过100万次。打造了中国高校大数据教学知名品牌,编著出版了中国高校第一本系统介绍大数据知识的专业教材《大数据技术原理与应用》,并成为京东、当当网等网店畅销书籍;建设了国内高校首个大数据课程公共服务平台,为教师教学和学生学习大数据课程提供全方位、一站式服务,年访问量超过50万次。具有丰富的政府和企业信息化培训经验,厦门大学管理学院EDP中心、浙江大学管理学院EDP中心、厦门大学继续教育学院、泉州市科技培训中心特邀培训讲师,曾给中国移动通信集团公司、福州马尾区政府、福建龙岩卷烟厂、福建省物联网科学研究院、石狮市物流协会、厦门市物流协会、浙江省中小企业家、四川泸州企业家、江苏沛县企业家等开展信息化培训,累计培训人数达3000人以上。作为课题负责人完成了国家发改委城市信息化重大课题、国家物联网重大应用示范工程区域试点泉州市工作方案、2015泉州市互联网经济调研等课题。

示范班级

林子雨主讲厦门大学研究生课程《大数据处理技术》是“中国高校大数据课程公共服务平台”重点打造的示范班级,全程严格执行“林子雨精品大数据公开课六大质量标准”,旨在努力打造高校大数据教学实践标杆。

示范班级全程践行O2O教学理念,提供线上线下完整教学服务,学生在获得良好现场教学体验的同时,可以通过班级网站获得全方位课程指导和服务。示范班级标准元素包括:班级主页、标准教室、精心备课、精彩讲解、优雅形象、标准音质、完整服务等。

林子雨精品大数据公开课六大质量标准

班级学生名单(共40人)

陈星强、陈军、蔡思凡、陈剑峰、陈欣、董芮冰、林佳伟、刘衡、倪胜、施喆尔、覃营晟、汪改英、汪文、魏亮、吴维奇、许秋皓、叶涛雨、余丽娟、张少坤、方光欢、郭金康、江麒海、康泽健、李健真、林冰倩、林灵婷、钱莉、饶辉、徐嘉熠、严文婧、喻小丽、曾冠华、章钰沁、钟舒妍、陈小康、安特、姜峰、钱剑强、林明宝、王若宇

公告板

发布时间 内容
2017年1月5日 发布班级主页
2017年2月11日 发布教学大纲
2017年2月15日 第1次课顺利结束,PPT已经发布,欢迎下载
2017年4月29日 期末大作业已经发布,请下载作业,并在2017年5月26日(第15周周五)晚12点之前提交给助教
2017年5月17日 第15周周三(5月24日)晚上期末复习
期末考试时间定在第16周周三(5月31日)晚上7点海韵教学楼204教室

教学大纲

厦门大学研究生课程教学大纲

课程名称 大数据处理技术
英文名称 Bigdata Processing Technology
授课对象 计算机、软件工程等信息相关专业 适用年级 研究生一年级
课程类型 专业选修课 课程课型 理论和实践结合型
总学分 总学时 授课 讨论 实验/上机 实践 其他
2 32 32 0 0 0 0
先修课程 编程语言、数据库
一、课程简介(中文)
Spark是当前热门的大数据处理技术。本课程重点介绍Spark的技术原理与编程方法。Spark支持采用Scala、Java、Python和R语言进行编程,本课程采用Scala语言编写Spark应用程序。课程内容包括Scala语言、Spark简介、安装、运行架构、RDD的设计与运行原理、部署模式、RDD编程、键值对RDD、数据读写、Spark SQL、Spark Streaming等。通过本课程的学习,将帮助学生形成基础的Spark应用程序编程能力,为学生使用Spark技术解决实际科研问题和未来从事大数据相关工作奠定基础。
二、课程简介(英文)
Spark is a popular data processing technology. This course focuses on the technical principles and programming methods of Spark. Spark supports the use of Scala, Java, Python and R programming language, and this course adopts Scala to write Spark programs. The contents of this course include Scala, Spark language introduction, installation, operation architecture, RDD design and operation principle, deployment model, RDD programming, the key of RDD, Spark SQL, data reading and writing, Spark Streaming etc.. This course may help students to have the basic ability of Spark programming, and use Spark technology to solve practical research problems.
三、教学方式
(1)本课程采用理论授课与学生课后上机实践相结合,帮助学生更好消化吸收课程知识。

(2)积极践行O2O教学理念,努力提升教学水平,在大数据课程教学方面积极开拓创新,实现线下教学和线上服务的巧妙结合。课程主讲教师建设了国内高校首个大数据课程公共服务平台,提供讲义PPT、课程习题、学习指南、授课视频、技术资料等全方位、一站式免费服务,帮助学生更好学习大数据课程。

四、考核方式
最终成绩=期末笔试成绩*70%+平时成绩*30%,其中,平时成绩包括考勤和作业。
五、参考教材
林子雨. Spark入门教程. http://dblab.xmu.edu.cn/blog/spark/
六、教学大纲
章(或节) 主要内容 学时安排
第1章 大数据技术概述 大数据的基本概念、关键技术和代表性软件 2
第2章 Scala语言基础 介绍Scala语言基础语法 6
第3章 Spark设计与运行原理 Spark简介、安装、运行架构、RDD的设计与运行原理、部署模式 3
第4章 Spark安装和使用方法 安装Spark、在Spark Shell中运行代码、编写Spark独立应用程序、第一个Spark应用程序:WordCount、使用开发工具编写Spark应用程序、Spark集群环境搭建、在集群上运行Spark应用程序 3
第5章 Spark编程基础 RDD编程、键值对RDD、共享变量、数据读写 6
第6章 Spark SQL Spark SQL简介、DataFrame、读写Parquet、通过JDBC连接数据库、连接Hive读写数据 2
第7章 Spark Streaming 流计算简介、Spark Streaming简介、DStream操作 4
第8章 Spark MLlib Spark MLlib简介、机器学习工作流、特征抽取、转化和选择、分类与回归、聚类算法、推荐算法 4
第9章 Spark综合案例 Spark综合案例 2
合计 32

教学进度表

次数 日期 内容
1 2017年2月15日周三晚上 课程介绍
第1章 大数据技术概述
2 2017年2月15日周三晚上 第2章 Scala语言基础
2.1 Scala语言概述
2.2 Scala基础 讲到2.2.3.4 映射(Map)
3 2017年3月1日周三晚上 第2章 Scala语言基础
2.2 Scala基础 讲完
2.3 面向对象编程基础 讲到 2.3.2.4 apply方法和update方法
4 2017年3月8日周三晚上 第2章 Scala语言基础讲完
2.3 面向对象编程基础
2.4 函数式编程基础
5 2017年3月15日周三晚上 第3章 Spark的设计与运行原理
3.1 Spark概述
3.2 Spark生态系统
3.3 Spark运行架构
6 2017年3月22日周三晚上 第3章 Spark的设计与运行原理
3.4 Spark的部署和应用方式
第4章 Spark安装和使用方法
4.1 安装Spark
4.2 在Spark Shell中运行代码
4.3 编写Spark独立应用程序
4.4 第一个Spark应用程序:WordCount
7 2017年3月29日周三晚上 第4章 Spark安装和使用方法
4.5 使用开发工具编写Spark应用程序
4.6 Spark集群环境搭建
4.7 在集群上运行Spark应用程序
第5章 Spark编程基础
5.1  RDD编程
8 2017年4月5日周三晚上 第5章 Spark编程基础
5.2 Pair RDD
9 2017年4月12日周三晚上 第5章 Spark编程基础
5.3 共享变量
5.4 数据读写
5.5 WordCount程序解析
10 2017年4月19日周三晚上 第5章 Spark编程基础
5.6 综合案例
11 2017年4月26日周三晚上 第6章 Spark SQL
6.1 Spark SQL简介
6.2 DataFrame与RDD的区别
6.3 DataFrame的创建
6.4 从RDD转换得到DataFrame
6.5 读取和保存数据
12 2017年5月3日周三晚上 第7章 Spark Streaming
7.1 流计算概述
7.2 Spark Streaming
7.3 DStream操作概述
7.4 输入源
13 2017年5月10日周三晚上 第7章 Spark Streaming
7.4.2 高级输入源
7.5 转换操作
7.6 输出操作
14 2017年5月17日周三晚上 第8章 Spark MLlib
8.1 Spark MLlib简介
8.2 机器学习工作流
8.3 特征抽取、转化和选择
15 2017年5月24日周三晚上 第8章 Spark MLlib
8.4 分类和回归
期末复习

讲义PPT下载

章节 内容 下载PPT 下载PDF
 第0章 课程介绍 课程特色、教材介绍、内容提要、教学大纲、配套资源、班级介绍  下载 下载
第1章 大数据技术概述 大数据时代、大数据概念、影响、关键技术、计算模式、代表性技术 下载 下载
第2章 Scala语言基础 Scala语言概述、Scala基础、面向对象编程基础、函数式编程基础 下载 下载
第3章 Spark的设计与运行原理 Spark概述、Spark生态系统、Spark运行架构、Spark的部署和应用方式 下载 下载
第4章 Spark安装和使用方法 安装Spark、在Spark Shell中运行代码、编写Spark独立应用程序、第一个Spark应用程序:WordCount、使用开发工具编写Spark应用程序、Spark集群环境搭建、在集群上运行Spark应用程序 下载 下载
第5章 Spark编程基础 RDD编程、Pair RDD、共享变量、数据读写、WordCount程序解析 下载 下载
第6章 Spark SQL Spark SQL简介、DataFrame与RDD的区别、DataFrame的创建、从RDD转换得到DataFrame、读取和保存数据 下载 下载
第7章 Spark Streaming 流计算概述、Spark Streaming、DStream操作概述、输入源、转换操作、输出操作 下载 下载
第8章 Spark MLlib Spark MLlib简介、机器学习工作流、特征抽取、转化和选择、分类与回归、聚类算法、推荐算法、机器学习参数调优 下载 下载

课后作业

课后作业的形式是,同学下载作业说明,然后按照作业要求进行上机实践,并撰写电子版上机实验报告(WORD文档),并在指定日期之前发送给本班级助教阮榕城同学(E-mail:ruanrc@qq.com)。上机报告的格式模板,已经包含在作业说明中,请单独拷贝出来放在一个新的WORD文档中,做成上机实验报告。

上机实验报告里面的具体内容,没有固定的格式,只要能够把自己上机操作的过程描述清楚,并放上一些运行过程和结果的截图,让老师能够看到确实完成了各个实验步骤,并且成功实现了实验预期效果。作业提交日期以本网页为准

章节 作业名称 作业下载 作业提交时间
期末大作业 基于Spark的数据处理与分析 下载 2017年5月26日周五晚上12点之前

课程教材

本课程采用林子雨编著《Spark入门教程》(访问在线教程),让初学者零基础零障碍学习Spark。教程采用Scala语言编写Spark应用程序,因此,教程包括Scala入门和Spark入门两个部分的内容。

拓展学习

在本课程的学习过程中,感兴趣的学生,建议在课后参考以下资料自学更多的大数据相关技术。

1.《大数据技术原理与应用》课程视频观看

林子雨编著《大数据技术原理与应用(第2版)》(人民邮电出版社2017年2月正式出版发行第2版,京东、当当各大网店热销书籍),侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。

《大数据技术原理与应用》教材拥有配套的高清课程视频(观看),共13讲,视频累计长度1300分钟。课程视频于2016年3月发布到网易云课堂,长期以来一直排名大数据课程排行榜首位,累计学习人数超过2万人,99%网友给予五星级最高评价,被众多网友称为“经典课程”和“最好的大数据入门课程”。读者在学习本教程的同时,可以通过观看在线视频,了解相关大数据技术的实现原理,从而更好实践大数据技术。

2.大数据软件安装和编程实践指南访问

详细学习如何安装运行各种大数据软件以及如何进行初级编程实践,包括Hadoop、HDFS、HBase、MapReduce、Spark、MongoDB等安装、操作、编程指南。帮助学生“零基础、零障碍”学习大数据技术。

3.大数据课程实验案例《网站用户购物行为分析》(访问

采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。案例适合高校大数据教学,可以作为学生学习大数据课程后的综合实践案例。

课程助教

2016春季学期大数据处理技术班级的课程助教,由厦门大学数据库实验室2015级硕士研究生阮榕城同学担任,E-mail: ruanrc@qq.com。

班级相册

为学生留下最美的课堂记忆。下面是2013大数据班级合影。

厦门大学,林子雨,大数据技术基础