林子雨编著《大数据技术原理与应用(第4版)》教材官网

 

《大数据技术原理与应用(第4版)》
人民邮电出版社   ISBN:978-7-115-64181-6
定价:65元    版次:2024年8月第4版

入选福建省“十四五”普通高等教育本科规划教材

作者:林子雨(ziyulin@xmu.edu.cn, https://dblab.xmu.edu.cn/post/linziyu)

配套MOOC课程荣获“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”

观看MOOC课程视频

全国1000多所高校大数据课程选用本教材

扫一扫手机访问本主页


教材配套资源快速访问链接

1.第3版教材官网(访问
2.教材配套大数据软件安装和编程实践指南访问
3.教材配套实验指导书《大数据基础编程、实验和案例教程(第3版,不是第4版)》(教材官网
4.教材配套上机实验题目和答案、课后习题(选择题)题目和答案(需要实验和习题答案的老师,可以加入大数据课程教师交流群(QQ群号: 957763740,加群申请时需要提供高校和教师姓名进行验证),加入群以后,到群文件中,找到“大数据技术原理与应用(第4版)”目录,里面就可以下载了)
5.教学大纲(下载
6.教材目录(查看
7.讲义PPT(请到下面的“下载专区”的百度网盘中下载,百度网盘中同时提供了讲义PPT、软件、数据集、虚拟机镜像、教学大纲等)
8.教案(请到下面的“下载专区”的百度网盘中下载)
9.教材配套授课视频(在线MOOC)(观看
10.课程思政(下载
11.500道题库(获取题库
12.综合案例:网站购物用户行为分析(查看
13.教材配套大数据实验环境虚拟机镜像(请到本网页的“下载专区”下载镜像文件)
14.第24期大数据师资培训班(2024年7月21日-28日,厦门)(访问报名主页
15.林子雨编著13本大数据系列教材及其配套教学资源(查看


样书申请

授课教师可以向人民邮电出版社申请样书,出版社联系人孙澍(手机:18911351293),或者也可以扫描下面二维码申请样书。

扫码申请样书

下载专区

下载专区提供了与教材配套的各种资料的下载,包括讲义PPT(最新版本)、教学大纲、软件、数据集、虚拟机镜像文件等。可以直接访问百度网盘地址:https://pan.baidu.com/s/1hxpApQ-fHeTuGWBx791vQA?pwd=ziyu)(提取码是ziyu)

作者介绍

林子雨(1978-),男,博士(毕业于北京大学),国内高校知名大数据教师,厦门大学计算机科学与技术系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,全国工业大数据行业产教融合共同体特聘专家,入选“2021年高校计算机专业优秀教师奖励计划”,荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”和“2018年福建省高等教育教学成果奖二等奖(个人排名第一)”,编著出版13本大数据系列教材,被国内500多所高校采用,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过2500万次,成为全国高校大数据教学知名品牌,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,主持的课程《Spark编程基础》获评“2021年国家级线上一流本科课程”。建设的大数据系列MOOC课程入选“2023年教育部国家智慧教育公共服务平台应用典型案例”。

教材介绍

本书系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共14章,内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、大数据应用。本书在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等相关章安排了入门级的实验,以便读者能更好地学习和掌握大数据的关键技术。

本书可以作为高等院校大数据、计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考。

篇章介绍

第一篇 大数据基础

本篇内容介绍大数据(Big Data)的基本概念、影响和应用领域,并阐述大数据、云计算和物联网的相互关系,同时还将介绍大数据处理架构Hadoop。由于Hadoop已经成为应用最为广泛的大数据技术,因此,本书的大数据相关技术主要围绕Hadoop展开,包括Hadoop MapReduce、HDFS和HBase。本篇内容是理解后续其他篇章内容的基础。

本篇包括2章。第一章介绍大数据的概念和应用,分析了大数据、云计算和物联网的相互关系;第二章介绍大数据处理架构Hadoop。

第一篇 大数据基础

 第二篇 大数据存储

本篇介绍大数据存储相关技术的概念与原理,包括分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库和云数据库。HDFS提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。NoSQL数据库可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力,可以有效弥补传统关系型数据库的不足。云数据库是部署和虚拟化在云计算环境中的数据库,可以将用户从繁琐的数据库硬件定制中解放出来,同时让用户拥有强大的数据库扩展能力,满足各种不同类型用户的数据存储需求。需要特别指出的是,虽然云数据库在概念上更偏向于云计算的范畴,但是,云计算和大数据是密不可分的两种技术,不能割裂看待,而且,了解云数据库有助于拓展对大数据存储和管理方式的认识,因此,本篇内容介绍了云数据库的概念和相关产品。

本篇包括4章。第三章介绍分布式文件系统HDFS;第四章介绍分布式数据库HBase;第五章介绍NoSQL数据库;第六章介绍云数据库。

第二篇 大数据存储

第三篇 大数据处理与分析

本篇介绍大数据处理与分析的相关技术。大数据包括静态数据和动态数据(流数据),静态数据适合采用批处理方式,动态数据需要进行实时计算。分布式并行编程框架MapReduce可以大幅提高程序性能,实现高效的批量数据处理。Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理,用户通过编写类似SQL的HiveQL语句就可以运行MapReduce任务,不必编写复杂的MapReduce应用程序。基于内存的分布式计算框架Spark,是一个可应用于大规模数据处理的快速、通用引擎,如今是Apache软件基金会下的顶级开源项目之一,正以其结构一体化、功能多元化的优势,逐渐成为当今大数据领域最热门的大数据计算平台。流计算框架Storm是一个低延迟、可扩展、高可靠的处理引擎,可以有效解决流数据的实时计算问题。Flink是一种具有代表性的开源流处理架构,具有十分强大的功能,它实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理。大数据中包括很多图结构数据,但是MapReduce不适合用来解决大规模图计算问题,因此新的图计算框架应运而生,Pregel就是其中一种具有代表性的产品。此外,数据可视化是大数据分析的最后环节,也是非常关键的一环,因此本篇简要介绍了数据可视化的概念和相关工具。
本篇包括八章。第7章介绍分布式并行编程框架MapReduce;第8章对Hadoop进行了再探讨;第9章介绍基于Hadoop的数据仓库Hive;第10章介绍基于内存的分布式计算框架Spark;第11章介绍流计算和开源流计算框架Storm;第12章介绍开源流处理框架Flink;第13章介绍图计算框架Pregel。

第四篇 大数据应用

大数据已经在社会生产和日常生活中得到了广泛的应用,对人类社会的发展进步起着重要的推动作用。本篇介绍大数据在互联网、生物医学、物流、城市管理、金融、汽车、零售、餐饮、电信、能源、体育娱乐、安全、政府、日常生活等方面的应用,从中我们可以深刻地感受到大数据对社会的影响及其重要价值。本篇包括1章,即第14章大数据应用。

第四篇 大数据应用

第4版教材目录

点击这里查看第4版教材详细目录

教学实践

本教材源自林子雨老师在厦门大学计算机系的多年教学实践,从2013年开始已经应用于厦门大学计算机系研究生课程《大数据技术基础》和厦门大学本科生课程《大数据技术原理与应用》的实践教学,受到学生的欢迎!点击这里访问《大数据技术基础》2013班级主页

时间 课程名称 课程性质 授课对象 授课内容 教材 班级主页
2013年秋季学期 大数据基础基础 专业选修课 厦大计算机系2013级研究生 大数据技术原理,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、Zookeeper、Google Spanner、Google Dremel等 林子雨编著《大数据技术基础》PDF免费开源电子书 访问主页
2016年春季学期 大数据处理技术 专业选修课 厦大计算机系2015级研究生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第1版)》 访问主页
2017年春季学期 大数据处理基础 专业选修课 厦大计算机系2016级研究生 基于内存的分布式计算框架Spark,完整讲解整套Spark技术 林子雨编著在线版《Spark入门教程 访问主页
2017年春季学期 大数据技术原理与应用 全校公共选修课 厦大本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第2版)》 访问主页
2018年春季学期 大数据技术原理与应用 计算机系选修课 厦大计算机系大三本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第2版)》 访问主页
2019年春季学期 大数据技术原理与应用 计算机系选修课 厦大计算机系大三本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第2版)》 访问主页
2020年春季学期 大数据技术原理与应用 计算机系选修课 厦大计算机系大三本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第2版)》 访问主页
2021年春季学期 大数据技术原理与应用 计算机系选修课 厦大计算机系大三本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第3版)》 访问主页
2022年春季学期 大数据技术原理与应用 计算机系选修课 厦大计算机系大三本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第3版)》 访问主页
2023年春季学期 大数据技术原理与应用 计算机系选修课 厦大计算机系大三本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第3版)》 访问主页
2024年春季学期 大数据技术原理与应用 计算机系选修课 厦大计算机系大三本科生 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 林子雨编著《大数据技术原理与应用(第3版)》 访问主页

厦门大学,林子雨,大数据技术基础

致谢

本书由林子雨执笔。从2015年至今,已经诞生第1版、第2版、第3版和第4版教材,在各个版本教材的撰写过程中,实验室很多同学做了大量辅助性工作,包括厦门大学计算机科学系硕士研究生刘颖杰(2012级硕士研究生)、叶林宝(2012级硕士研究生)、蔡珉星(2013级硕士研究生)、李雨倩(女,2013级硕士研究生)、谢荣东(2014级硕士研究生)、罗道文(2014级硕士研究生)、邓少军(2014级硕士研究生)、阮榕城(2015级硕士研究生)、薛倩(2015级硕士研究生)、魏亮(2016级硕士研究生)、曾冠华(2016级硕士研究生)、程璐(2017级硕士研究生)、林哲(2017级硕士研究生)、郑宛玉(2018级硕士研究生)、陈杰祥(2018级硕士研究生)、陈绍纬(2019级硕士研究生)、周伟敬(2019级硕士研究生)、阮敏朝(2020级硕士研究生)、刘官山(2020级硕士研究生)、黄连福(2020级硕士研究生)、周凤林(2021级硕士研究生)、吉晓函(2021级硕士研究生)、黄万嘉(2022级硕士研究生)、曹基民(2022级硕士研究生)以及本科生黄梓铭(2011级本科生)、李粲(女,2012级本科生)等。在此,向这些同学的辛勤工作表示衷心的感谢。同时,衷心感谢实验室夏小云老师对教材建设作出的大量奉献。

刘颖杰 yelinbao 蔡珉星 李雨倩
刘颖杰 叶林宝 蔡珉星 李雨倩
 谢荣东 罗道文 黄梓铭  李粲
谢荣东 罗道文 黄梓铭 李粲
阮榕城 薛倩 魏亮 曾冠华
程璐 林哲 郑宛玉 陈杰祥
陈绍纬 周伟敬 阮敏朝 刘官山
黄连福 周凤林 吉晓函 黄万嘉
曹基民 王雅南 夏小云 林子雨