《大数据技术原理与应用》教材官网

中国高校大数据课程公共服务平台LOGO(图上文下)

本教材官网为“中国高校大数据课程公共服务平台”的九大工程中的“1号子工程”

《大数据技术原理与应用——概念、存储、处理、分析与应用》

作者:林子雨(ziyulin@xmu.edu.cn, http://www.cs.xmu.edu.cn/linziyu)

工信部”全国云计算及大数据应用技术人才培训考试项目”唯一指定大数据教材

全国多所高校大数据课程选用本教材,京东、当当等各大网店畅销书籍

入门级精品教材,丰富的教材配套资源帮助读者实现“零基础”学习大数据

点击这里观看与教材每个章节配套的授课视频

人民邮电出版社官网购书 | 当当网购买本书|京东商城购买本书|亚马逊购买本书

林子雨大数据教材主页

扫一扫手机访问本主页

 


作者介绍|教材介绍教材前言|篇章介绍 |新增章节电子书下载|教学实践|教材勘误|本书读者|致谢

教材配套讲义PPT下载 | 教材配套课后上机练习题目 | 教材配套机房上机实验指南|教材配套大数据软件安装使用和基础编程实践指南 | 教材配套教师备课指南
面向教师的教学服务站 | 面向学生的教学服务站|在线课程视频

林子雨博客《Spark入门教程》 |  大数据课程综合实验案例(两千万条记录存储分析可视化)


大数据之门

作者介绍

林子雨2014年9月

林子雨,男,1978年出生,博士,现为厦门大学计算机科学系助理教授,海峡云计算与大数据应用研究中心副主任,曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。现为中国计算机学会数据库专业委员会委员,中国计算机学会信息系统专业委员会委员,厦门市计算机学会理事。中国高校首个“数字教师”提出者和建设者,厦门大学数据库实验室负责人,厦门大学云计算与大数据研究中心主要建设者和骨干成员。于2001年获得福州大学水利水电专业学士学位,2005年获得厦门大学计算机专业硕士学位,2009年获得北京大学计算机专业博士学位。主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与发展》等国家重点期刊以及国际学术会议上发表多篇学术论文。作为项目负责人主持的科研项目包括1项国家自然科学青年基金项目(No.61303004)、1项福建省自然科学青年基金项目(No.2013J05099)和1项中央高校基本科研业务费项目(No.2011121049)。

中国高校大数据课程公共服务平台

中国高校大数据课程公共服务平台LOGO(图上文下)

欢迎点击这里进入中国高校大数据课程公共服务平台主页

3分钟FLASH动画宣传片链接图片1

点击这里观看平台3分钟FLASH动画宣传片

中国高校大数据课程公共服务平台,由中国高校首个“数字教师”的提出者和建设者——林子雨老师发起,由厦门大学数据库实验室全力打造,由厦门大学云计算与大数据研究中心、海峡云计算与大数据应用研究中心携手共建。平台从2013年5月开始建设,2015年8月1日完成1号工程(教材出版),2015年11月2日,平台正式上线。这是国内第一个服务于高校大数据课程建设的公共服务平台,旨在促进国内高校大数据课程体系建设,提高大数据课程教学水平,降低大数据课程学习门槛,提升学生课程学习效果。

平台重点打造“9个1工程”,即1本教材(含官网)、1个教师服务站、1个学生服务站、1个公益项目、1堂巡讲公开课、1个示范班级、1门在线课程、1个交流群(QQ群、微信群)和1个保障团队。九大工程已经顺利建成!

中国高校大数据课程公共服务平台九个一工程2015年10月3日

中国高校大数据课程公共服务平台,是一个开放的平台,不断进步提升的平台,热忱欢迎国内高校热爱大数据教学的开拓创新者加入平台,为平台建设添砖加瓦,共同推进中国高校大数据教学事业不断迈上新的台阶。

教材介绍

(本教材已经由人民邮电出版社正式出版发行,已经在当当网京东商城等各大网店上架销售)

  书  名

大数据技术原理与应用——概念、存储、处理、分析与应用

责任者及著作方式

林子雨 编著 

文种、各种文字对照

简体中文 

第一责任者及著作方式

林子雨 编著

版  次

1

印  次

1

  版  者

人民邮电出版社

出版年月

2015年8月第1版

页数或卷册数

260 

印张

 16.25

开本尺寸

16开 

成品尺寸

 185X260 

字  数

416千字

印  数

3000册

正丛书名

21世纪高等教育计算机规划教材 

ISBN

978-7-115-39287-9 

内容简介

1) 概念篇:介绍当前紧密关联的最新IT领域技术云计算、大数据和物联网。(2) 大数据存储篇:介绍分布式数据存储的概念、原理和技术,包括HDFS、HBase、NoSQL数据库、云数据库。(3) 大数据处理与分析篇:介绍MapReduce分布式编程框架、图计算、流计算。(4) 大数据应用篇:介绍基于大数据技术的推荐系统。  

网店销售

当当网京东商城淘宝网亚马逊

教材使用者

工信部”全国云计算及大数据应用技术人才培训考试项目”唯一指定大数据教材

本书系统介绍了大数据相关知识,全书共有13章,系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。

本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用。

林子雨-大数据技术原理与应用教材封面2015年6月1日

上图是2015年8月第1版教材封面

上图是2017年2月第2版教材封面

前言

大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受关注。大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业,都融入了大数据的印迹,大数据对人类的社会生产和生活必将产生重大而深远的影响。

大数据时代的到来,迫切需要高校及时建立大数据技术课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带。本书将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域“深耕细作”奠定基础、指明方向。在本书的基础上,感兴趣的读者可以通过其他诸如《Hadoop权威指南》等工具书,继续深入学习和实践大数据相关技术。

林子雨大数据教材的入门作用

本书紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。本书共分四大部分,包括大数据基础篇、大数据存储篇、大数据处理与分析篇和大数据应用篇。在大数据基础篇中,第一章介绍大数据的基本概念和应用领域,并阐述大数据、云计算和物联网的相互关系;第二章介绍大数据处理架构Hadoop,由于Hadoop已经成为应用最为广泛的大数据技术,因此,本书的大数据相关技术主要围绕Hadoop展开,包括Hadoop MapReduce、HDFS和HBase,因此,该章是后面其他章节(第三、四、七章)内容的基础。在大数据存储篇中,用五个章节(第三、四、五、六章)的内容,分别介绍了大数据存储相关技术的概念与原理,包括分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库和云数据库。在大数据处理与分析篇,首先在第七章介绍了大数据处理和分析的核心技术——分布式并行编程模型MapReduce,然后,在第八章和第九章分别介绍了大数据时代两种新兴的数据分析技术——流计算和图计算,最后在第十章简单介绍了可视化技术。在大数据应用篇,用三章(第十一、十二、十三)内容介绍了大数据在互联网、生物医学和物流等各个领域的典型应用。

本书面向高校计算机专业和信息管理等相关专业的学生,可以作为专业必修课或选修课教材。在教学过程中,建议安排32个授课学时,16个教学周,每周2学时,每个章节的具体学时分配如下:第一、二、五、六、八、十、十一每个章节安排2个学时;第三、四、九章每个章节安排4个学时;第七章安排6个学时;第十二、十三章这两章内容由学生自学完成。

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生刘颖杰、叶林宝、蔡珉星、李雨倩、谢荣东、罗道文以及本科生黄梓铭、李粲等同学做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

本书官方网站是http://dblab.xmu.edu.cn/post/bigdata/,提供教学PPT和相关资料下载,并接受错误反馈和发布教材勘误信息。

本书在撰写过程中,我参考了大量国内外教材、专著、论文和资料,对大数据知识进行了系统梳理,有选择性地把一些重要知识纳入本书。本书也是我多年在数据科学领域从事教学、科研、产业方面工作的系统总结。但是,本人才疏学浅,难免有许多不足之处,望学术同仁不吝赐教。

厦门大学计算机科学系数据库实验室

林子雨

2015年3月,于厦门

篇章介绍

第一篇 大数据基础

本篇内容介绍大数据(Big Data)的基本概念、影响和应用领域,并阐述大数据、云计算和物联网的相互关系,同时还将介绍大数据处理架构Hadoop。由于Hadoop已经成为应用最为广泛的大数据技术,因此,本书的大数据相关技术主要围绕Hadoop展开,包括Hadoop MapReduce、HDFS和HBase。本篇内容是理解后续其他篇章内容的基础。

本篇包括2章。第一章介绍大数据的概念和应用,分析了大数据、云计算和物联网的相互关系;第二章介绍大数据处理架构Hadoop。

第一篇 大数据基础

 第二篇 大数据存储

本篇介绍大数据存储相关技术的概念与原理,包括分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库和云数据库。HDFS提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。NoSQL数据库可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力,可以有效弥补传统关系型数据库的不足。云数据库是部署和虚拟化在云计算环境中的数据库,可以将用户从繁琐的数据库硬件定制中解放出来,同时让用户拥有强大的数据库扩展能力,满足各种不同类型用户的数据存储需求。需要特别指出的是,虽然云数据库在概念上更偏向于云计算的范畴,但是,云计算和大数据是密不可分的两种技术,不能割裂看待,而且,了解云数据库有助于拓展对大数据存储和管理方式的认识,因此,本篇内容介绍了云数据库的概念和相关产品。

本篇包括4章。第三章介绍分布式文件系统HDFS;第四章介绍分布式数据库HBase;第五章介绍NoSQL数据库;第六章介绍云数据库。

第二篇 大数据存储

第三篇 大数据处理与分析

本篇介绍大数据处理与分析的相关技术。大数据包括静态数据和动态数据(流数据),静态数据适合采用批处理方式,动态数据需要进行实时计算。分布式并行编程框架MapReduce可以大幅提高程序性能,实现高效的批量数据处理。流计算框架Storm是一个低延迟、可扩展、高可靠的处理引擎,可以有效解决流数据的实时计算问题。大数据中包括很多图结构数据,但是,MapReduce不适合用来解决大规模图计算问题,因此,新的图计算框架应运而生,Pregel就是其中一种具有代表性的产品。此外,数据可视化是大数据分析的最后环节,也是非常关键的一环,因此,本篇将简要介绍数据可视化的概念和相关工具。

本篇包括4章。第七章介绍分布式并行编程框架MapReduce;第八章介绍开源流计算框架Storm;第九章介绍图计算框架Pregel;第十章简要介绍数据可视化的概念和相关工具。

第三篇 大数据处理与分析

第四篇 大数据应用

大数据已经在社会生产和日常生活中得到了广泛的应用,对人类社会的发展进步起着重要的推动作用。本篇内容介绍大数据在互联网、生物医学、物流、城市管理、金融、汽车、零售、餐饮、电信、能源、体育娱乐、安全、政府、日常生活等方面的应用,从中我们可以深刻地感受到大数据对社会的影响及其重要价值。

本篇内容包括3章。第十一章以推荐系统为核心介绍大数据在互联网领域的应用;第十二章介绍大数据在生物医学领域的应用;第十三章介绍大数据在其他领域的应用。其中,第十一章需要重点理解,其他章节可以作为开拓视野的拓展性阅读材料。

第四篇 大数据应用

教材目录

第一篇 大数据基础
第1章 大数据概述 2
1.1 大数据时代 2
1.1.1 第三次信息化浪潮 2
1.1.2 信息科技为大数据时代
提供技术支撑 3
1.1.3 数据产生方式的变革促成
大数据时代的来临 5
1.1.4 大数据的发展历程 6
1.2 大数据的概念 7
1.2.1 数据量大 7
1.2.2 数据类型繁多 8
1.2.3 处理速度快 8
1.2.4 价值密度低 9
1.3 大数据的影响 9
1.3.1 大数据对科学研究的影响 9
1.3.2 大数据对思维方式的影响 10
1.3.3 大数据对社会发展的影响 11
1.3.4 大数据对就业市场的影响 12
1.3.5 大数据对人才培养的影响 12
1.4 大数据的应用 13
1.5 大数据关键技术 14
1.6 大数据计算模式 14
1.6.1 批处理计算 15
1.6.2 流计算 15
1.6.3 图计算 15
1.6.4 查询分析计算 16
1.7 大数据产业 16
1.8 大数据与云计算、物联网 17
1.8.1 云计算 17
1.8.2 物联网 20
1.8.3 大数据与云计算、物联网的关系 24
1.9 本章小结 25
1.10 习题 25
第2章 大数据处理架构Hadoop 26
2.1 概述 26
2.1.1 Hadoop简介 26
2.1.2 Hadoop的发展简史 26
2.1.3 Hadoop的特性 27
2.1.4 Hadoop的应用现状 27
2.2 Hadoop的项目结构 28
2.2.1 Common 28
2.2.2 Avro 29
2.2.3 HDFS 29
2.2.4 HBase 29
2.2.5 MapReduce 29
2.2.6 Zookeeper 30
2.2.7 Hive 30
2.2.8 Pig 30
2.2.9 Sqoop 30
2.2.10 Chukwa 30
2.3 Hadoop的安装与使用 31
2.3.1 创建Hadoop用户 31
2.3.2 Java的安装 31
2.3.3 SSH登录权限设置 32
2.3.4 安装单机Hadoop 32
2.3.5 Hadoop伪分布式安装 33
2.4 本章小结 35
2.5 习题 36
第二篇 大数据存储
第3章 Hadoop分布式文件系统 40
3.1 分布式文件系统 40
3.1.1 计算机集群结构 40
3.1.2 分布式文件系统的结构 41
3.1.3 分布式文件系统的设计需求 42
3.2 HDFS简介 42
3.3 HDFS的相关概念 43
3.3.1 块 43
3.3.2 名称节点和数据节点 44
3.4 HDFS体系结构 45
3.4.1 概述 45
3.4.2 HDFS命名空间管理 46
3.4.3 通信协议 46
3.4.4 客户端 46
3.4.5 HDFS体系结构的局限性 46
3.5 HDFS的存储原理 46
3.5.1 冗余数据的保存 46
3.5.2 数据存取策略 47
3.5.3 数据错误与恢复 48
3.6 HDFS的数据读写过程 49
3.6.1 读数据的过程 49
3.6.2 写数据的过程 50
3.7 HDFS编程实践 51
3.7.1 HDFS常用命令 51
3.7.2 HDFS的Web界面 52
3.7.3 HDFS常用Java API及应用实例 53
3.8 本章小结 56
3.9 习题 57
第4章 分布式数据库HBase 59
4.1 概述 59
4.1.1 从BigTable说起 59
4.1.2 HBase简介 59
4.1.3 HBase与传统关系数据库的
对比分析 60
4.2 HBase访问接口 61
4.3 HBase数据模型 62
4.3.1 数据模型概述 62
4.3.2 数据模型的相关概念 62
4.3.3 数据坐标 64
4.3.4 概念视图 64
4.3.5 物理视图 65
4.3.6 面向列的存储 65
4.4 HBase的实现原理 67
4.4.1 HBase的功能组件 67
4.4.2 表和Region 68
4.4.3 Region的定位 69
4.5 HBase运行机制 70
4.5.1 HBase系统架构 70
4.5.2 Region服务器的工作原理 72
4.5.3 Store的工作原理 73
4.5.4 HLog的工作原理 73
4.6 HBase编程实践 74
4.6.1 HBase常用的Shell命令 74
4.6.2 HBase常用的Java API及
应用实例 76
4.7 本章小结 86
4.8 习题 86
第5章 NoSQL数据库 90
5.1 NoSQL简介 90
5.2 NoSQL兴起的原因 91
5.2.1 关系数据库无法满足Web 2.0的
需求 92
5.2.2 关系数据库的关键特性在Web 2.0
时代成为”鸡肋” 92
5.3 NoSQL与关系数据库的比较 93
5.4 NoSQL的四大类型 95
5.4.1 键值数据库 96
5.4.2 列族数据库 96
5.4.3 文档数据库 97
5.4.4 图形数据库 97
5.5 NoSQL的三大基石 98
5.5.1 CAP 98
5.5.2 BASE 100
5.5.3 最终一致性 101
5.6 从NoSQL到NewSQL数据库 102
5.7 本章小结 104
5.8 习题 104
第6章 云数据库 105
6.1 云数据库概述 105
6.1.1 云计算是云数据库兴起的
基础 105
6.1.2 云数据库的概念 106
6.1.3 云数据库的特性 107
6.1.4 云数据库是个性化数据存储
需求的理想选择 108
6.1.5 云数据库与其他数据库的关系 109
6.2 云数据库产品 110
6.2.1 云数据库厂商概述 110
6.2.2 Amazon的云数据库产品 110
6.2.3 Google的云数据库产品 111
6.2.4 微软的云数据库产品 111
6.2.5 其他云数据库产品 112
6.3 云数据库系统架构 112
6.3.1 UMP系统概述 112
6.3.2 UMP系统架构 113
6.3.3 UMP系统功能 115
6.4 云数据库实践 118
6.4.1 阿里云RDS简介 118
6.4.2 RDS中的概念 118
6.4.3 购买和使用RDS数据库 119
6.4.4 将本地数据库迁移到云端RDS数据库 123
6.5 本章小结 124
6.6 习题 125
第三篇 大数据处理与分析
第7章 MapReduce 128
7.1 概述 128
7.1.1 分布式并行编程 128
7.1.2 MapReduce模型简介 129
7.1.3 Map和Reduce函数 129
7.2 MapReduce的工作流程 130
7.2.1 工作流程概述 130
7.2.2 MapReduce的各个执行阶段 131
7.2.3 Shuffle过程详解 132
7.3 实例分析:WordCount 135
7.3.1 WordCount的程序任务 135
7.3.2 WordCount的设计思路 136
7.3.3 MapReduce的具体执行过程 136
7.3.4 一个WordCount执行过程的
实例 137
7.4 MapReduce的具体应用 139
7.4.1 MapReduce在关系代数
运算中的应用 139
7.4.2 分组与聚合运算 140
7.4.3 矩阵-向量乘法 140
7.4.4 矩阵乘法 141
7.5 MapReduce编程实践 141
7.5.1 任务要求 141
7.5.2 编写Map处理逻辑 142
7.5.3 编写Reduce处理逻辑 143
7.5.4 编写main方法 144
7.5.5 编译打包代码以及运行程序 144
7.6 本章小结 146
7.7 习题 147
第8章 流计算 151
8.1 流计算概述 151
8.1.1 静态数据和流数据 151
8.1.2 批量计算和实时计算 152
8.1.3 流计算的概念 153
8.1.4 流计算与Hadoop 153
8.1.5 流计算框架 154
8.2 流计算的处理流程 154
8.2.1 概述 154
8.2.2 数据实时采集 155
8.2.3 数据实时计算 155
8.2.4 实时查询服务 156
8.3 流计算的应用 156
8.3.1 应用场景1:实时分析 156
8.3.2 应用场景2:实时交通 157
8.4 开源流计算框架Storm 158
8.4.1 Storm简介 159

……

(剩余章节8到13章的目录,略)

新增章节电子书下载

2015年8月1日出版发行的《大数据技术原理与应用》教材(第1版)共13章,针对2015、2016年大数据技术的新发展,2016年林子雨老师为教材新增了三个章节(将在下一版教材中放入教材),新增第14章基于Hadoop的数据仓库Hive、第15章Hadoop架构再探讨、第16章Spark。请在下面链接中下载新增章节的PDF格式的电子书。

章节 版本号 下载PDF格式电子书
第14章基于Hadoop的数据仓库Hive 2016年4月6日 下载电子书
第15章Hadoop架构再探讨 2016年4月13日 下载电子书
第16章Spark 2016年4月20日 下载电子书

讲义PPT下载

请点击这里下载厦门大学林子雨编著《大数据技术原理与应用》教材配套讲义PPT

教材编写

林子雨在数据库、数据仓库、数据挖掘、大数据、云计算和物联网等领域有着十多年的知识积累,对各个领域知识都有比较深入的了解,在政府发改部门的两年挂职期间对大量企业的调研,使其形成了比较宽泛的视野和对产业的深入了解。

2013年9月,由林子雨主讲的厦门大学计算机科学系研究生课程《大数据技术基础》正式开课。由于当时国内尚未出现适合本科和研究生教学的大数据专业教材,林子雨结合自身研究成果,并调研大量网络资料,历时半年编写完成了免费开源的课程讲义,发布到网络上,受到广大网友好评。

2014年开始,历时一年多时间,林子雨系统总结理论研究成果和教学实践经验,将相关大数据知识综合成一本适合本科和研究生教学的教材——《大数据技术原理与应用》。该教材由人民邮电出版社出版发行,2015年8月正式在当当、京东、淘宝、亚马逊等各大网店上架销售,并成为畅销书籍。近几年的教学实践证明,目前市场已有的各类其他书籍,大都偏于技术,比较适合作为深入学习的工具书来使用,不适合作为高校本科和研究生教学的教材。高校教学应更加侧重理论层面的教学,即对大数据领域知识体系的普及和背后原理的阐述,而非让学生深入学习和实践某一种大数据技术。从这个角度来说,《大数据技术原理与应用》是国内高校第一本系统介绍大数据知识的专业教材,也是第一本适合用于本科和研究生教学的入门级教材。

《大数据技术基础》和《大数据技术原理与应用》的联系与区别

林子雨先后编写了两本教材《大数据技术基础》和《大数据技术原理与应用》。2013年编写的《大数据技术基础》教材(点击这里访问该教材官网),是2014年编写的《大数据技术原理与应用》教材的内容基础,后者是对前者的全面改进和系统提升。《大数据技术原理与应用》定位明确,就是打造成为入门级大数据教材精品,因此,在撰写教材内容时,重点突出了大数据知识体系的构建,让读者形成对大数据知识领域的全面轮廓性认识,让读者了解“大数据是什么”、“大数据技术有哪些”“大数据可以应用到哪些领域”以及一些关键大数据技术的背后原理。《大数据技术基础》教材中,一些偏向学术研究以及不属于普及性大数据知识的内容,都被删除,没有放入《大数据技术原理与应用》。《大数据技术原理与应用》增加了《大数据技术基础》中没有的数据可视化、大数据应用领域等内容。

总体而言,两本教材既有相同部分,又有很大的不同,建议读者首先阅读《大数据技术原理与应用》,然后,再阅读《大数据技术基础》获取一些在《大数据技术原理与应用》中没有涉及的其他知识。

两本教材的具体联系与区别如下:

大数据技术基础 大数据技术原理与应用
官网 http://dblab.xmu.edu.cn/post/1089/ http://dblab.xmu.edu.cn/post/bigdata/
编写时间 2013年6月到12月,2013年12月正式发布 2014年3月到2015年3月,2015年8月1日正式出版发行
是否共享 免费共享,发布教材PDF版本电子书到网络上与网友分享 人民邮电出版社约稿并出版发行,有版权协议约束,不提供教材电子版,需要到京东、当当等网店购买纸质教材
讲义PPT 发布到官网免费共享 发布到官网免费共享
质量 知识没有进行全面系统梳理,许多内容直接复制网络资料,没有经过严格文字校对,许多图片清晰度不高 系统梳理大数据知识,知识点反复确认,涉及到版权问题,所有内容全部根据自己的理解和教学实践进行重新撰写,文字经过严格校对,重新绘制高清晰度图片,出版社专业排版印刷
写作经验 该书是林子雨在刚刚开设大数据课程时撰写的教材,存在经验不足和知识未成体系的问题 该书是林子雨经过丰富教学实践和大量补充阅读和研究的基础上全新撰写的,具有成熟的知识体系
内容 教程共13章,内容包括:第1章 大数据概述、第2章 大数据关键技术与挑战、第3章 Hadoop、第4章 MapReduce、第5章 HDFS、第6章 Zookeeper、第7章 HBase、第8章 流计算、第9章 图计算、第10章 NoSQL数据库、第11章 云数据库、第12章 Google Spanner和第13章 Google Dremel。 系统介绍了大数据相关知识,全书共有13章,系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。
内容异同说明 (1)《大数据技术基础》的第1章大数据概述,经过大幅度修改后,成为《大数据技术原理与应用》的第1章大数据概述。(2)《大数据技术基础》第2章 大数据关键技术与挑战,偏于学术研究,不适合作为教学内容,已经删除,没有放入《大数据技术原理与应用》。

(3)《大数据技术基础》第3章 Hadoop,经过大幅度修改后,成为《大数据技术原理与应用》的第2章大数据处理架构Hadoop。

(4)《大数据技术基础》第4章 MapReduce,经过大幅度修改后,成为《大数据技术原理与应用》第7章MapReduce。

(5)《大数据技术基础》第5章 HDFS,经过大幅度修改后,成为《大数据技术原理与应用》第3章 Hadoop分布式文件系统。

(6)《大数据技术基础》第6章 Zookeeper,不适合作为大数据课程的普及性知识,已经删除,没有放入《大数据技术原理与应用》。

(7)《大数据技术基础》第7章 HBase,经过大幅度修改后,成为《大数据技术原理与应用》第4章 分布式数据库HBase。

(8)《大数据技术基础》第8章 流计算,经过大幅度修改后,成为《大数据技术原理与应用》第8章流计算。

(9)《大数据技术基础》第9章 图计算,经过大幅度修改后,成为《大数据技术原理与应用》第9章图计算。

(10)《大数据技术基础》第10章 NoSQL数据库,经过大幅度修改后,成为《大数据技术原理与应用》第5章,NoSQL数据库。

(11)《大数据技术基础》第11章 云数据库,经过大幅度修改和重新撰写后,成为《大数据技术原理与应用》第6章云数据库。

(12)《大数据技术基础》第12章 Google Spanner和第13章 Google Dremel,知识比较深,偏向于数据库学科,不适合作为大数据入门教材的普及性知识,因此,被删除,没有放入《大数据技术原理与应用》。

(13)《大数据技术基础》教材中,没有涉及数据可视化的内容,鉴于数据可视化是大数据时代的重要技术,因此,在《大数据技术原理与应用》中增加了第10章数据可视化的内容。

(14)《大数据技术基础》教材中,没有介绍大数据的应用,无法让读者形成对大数据应用领域和应用方法的轮廓认识,因此,在《大数据技术原理与应用》教材中,增加了第11章大数据在互联网领域的应用和第12章大数据在生物医学领域的应用以及第13章大数据的其他应用。

 

教学实践

本教材源自林子雨老师在厦门大学计算机系的多年教学实践,已经应用于厦门大学计算机系研究生课程《大数据技术基础》的实践教学,受到学生的欢迎!点击这里访问《大数据技术基础》2013班级主页

厦门大学,林子雨,大数据技术基础

教材勘误

注:在教材使用过程中,如发现任何错误,欢迎联系教材作者林子雨:ziyulin@xmu.edu.cn。在此向读者表示衷心的感谢!

序号 勘误日期 错误修改说明
暂无 暂无 暂无

 

本书读者

感谢以下读者对本书的关注和批评指正,相关反馈意见将在后续版本中加以改进。

序号 姓名 单位 E-mail 阅读时间
1 王腾蛟 北京大学信息科学技术学院教授、博士生导师 tjwang@pku.edu.cn 2015年7月
2 高军 北京大学信息科学技术学院教授、博士生导师 gaojun@pku.edu.cn 2015年7月
3 宋国杰 北京大学信息科学技术学院副教授、博士 gjsong@pku.edu.cn 2015年8月
4 禹晓辉 山东大学计算机科学与技术学院副院长、教授、博士生导师 xyu@sdu.edu.cn 2015年7月
5 高云君 浙江大学计算机科学与技术学院副教授、博士 gaoyj@cs.zju.edu.cn 2015年8月
6  崔立真 山东大学计算机科学与技术学院副教授、博士  clz@sdu.edu.cn 2015年8月
7 吕晓华 杭州巨城电子商务有限公司总经理 保护隐私,邮箱含手机号 2015年8月
8 黄长城 温州大学计算机实验教学中心 保护隐私,邮箱含手机号 2015年8月
9 杨书新 江西理工大学信息工程学院副教授 yimuyunlang@sina.com 2015年8月
10 金培权 中国科学技术大学计算机科学技术系副教授、博士 jpq@ustc.edu.cn 2015年8月
11 李明明 西安科技大学副教授 715401729@qq.com 2015年8月
12 李建平 电子科技大学计算机科学与工程学院教授、博导 jpli2222@uestc.edu.cn 2015年8月
13 马友忠 洛阳师范学院信息技术学院教师 ma_youzhong@163.com 2015年8月
14 翁伟 厦门理工学院计算机学院教师 wwweng@xmut.edu.cn 2015年8月
15 王颖 厦门大学自动化系副教授、副系主任 wangying@xmu.edu.cn 2015年9月
16 陶继平 厦门大学自动化系助理教授 taojiping@xmu.edu.cn 2015年9月
17 庄弘 福建省物联网科学研究院院长 zhuanghong@fjiot.org.cn 2015年9月
18 夏小云 福建省物联网科学研究院院长助理 xiaxiaoyun@fjiot.org.cn 2015年9月
19 李翠华 厦门大学计算机科学系教授、博导 chli@xmu.edu.cn 2015年9月
20 雷蕴奇 厦门大学计算机科学系系主任、教授、博导 yqlei@xmu.edu.cn 2015年9月
21 薛永生 厦门大学计算机科学系教授(退休) ysxue@xmu.edu.cn 2015年9月
22 何志学 北华航天工业学院教师 57635236@qq.com 2015年10月
23 张念 厦门软件职业技术学院副院长 保护隐私,邮箱含手机号 2015年10月
24 朱文圣 厦门市全向物联网科技有限公司总经理(一次性采购10本并由林子雨亲笔签名) cicauto@163.com 2015年10月
25 李江华 江西理工大学信息工程学院教师 保护隐私,邮箱含手机号 2015年10月
26 肖政宏 广东技术师范学院计算机科学学院副院长、博士、教授 750735160@qq.com 2015年10月
27 文斌 海南师范大学信息科学技术学院软件工程系系主任、教授 binwen@hainnu.edu.cn 2015年10月
28 张友华 安徽农业大学计算机学院院长、教授 zhangyh@ahau.edu.cn 2015年10月
29 张智英 深圳鹏元资信公司副总经理 保护隐私,邮箱含手机号 2015年11月
30 王宁 华夏学院副教授、校长助理  wning97@163.com 2015年11月
31 王金水 福建工程学院教师 2015年12月
32 冯彦 中国海洋大学教师 2015年12月
33 王红梅 长春工业大学教授,吉林省教学名师 2015年12月
34 周磊 大连海洋大学教师 2015年12月
35 安琪 内蒙古工业大学信息工程学院教师 2015年12月
36 秦品乐 中北大学教师 2015年12月
37 王美丽 西北农林大学教师 2015年12月
38 汤晓兵 山东建筑大学教师 2015年12月
39 黄玉龙 安庆师范学院计算机系教师 2015年12月
40  薛红梅  河北工程大学教师  无  2015年12月
41 刘斌 西北农林科技大学教师 2016年1月
42 成宝国 西北农林科技大学教师 2016年1月
43 李辉 中国农业大学教师 2016年1月
44 高丽贞 厦门工学院教师 2016年1月
45 龙志 中山大学教师 2016年1月
46 陈荣元 湖南商学院计算机与信息工程学院教师 chenrongyuan@126.com 2016年2月

 

致谢

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生刘颖杰(2012级硕士研究生)、叶林宝(2012级硕士研究生)、蔡珉星(2013级硕士研究生)、李雨倩(女,2013级硕士研究生)、谢荣东(2014级硕士研究生)、罗道文(2014级硕士研究生)以及本科生黄梓铭(2011级本科生)、李粲(女,2012级本科生)等同学做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

刘颖杰 yelinbao  蔡珉星 李雨倩
刘颖杰 叶林宝 蔡珉星 李雨倩
 谢荣东 罗道文 黄梓铭  李粲
谢荣东 罗道文 黄梓铭 李粲

2015年11月30日林子雨和人民邮电出版社领导合影

(图 2015年11月30日在北京人民邮电出版社合影  吴婷(本书编辑)、林子雨、潘春燕(高教出版分社社长)、邹文波(信息技术编辑部主任))

2015年6月23日林子雨拿到书