《大数据技术原理与应用(第4版)》
人民邮电出版社 ISBN:978-7-115-64181-6
定价:65元 版次:2024年8月第4版
获批福建省“十四五”普通高等教育本科规划教材建设项目
作者:林子雨(ziyulin@xmu.edu.cn, https://dblab.xmu.edu.cn/post/linziyu)
配套MOOC课程荣获“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”
全国1000多所高校大数据课程选用本教材
扫一扫手机访问本主页
教材配套资源快速访问链接
1.第3版教材官网(访问)
2.教材配套大数据软件安装和编程实践指南(访问)
3.教材配套实验指导书《大数据基础编程、实验和案例教程(第3版,不是第4版)》(教材官网)
4.教材配套上机实验题目和答案、课后习题(选择题)题目和答案(需要实验和习题答案的老师,可以加入大数据课程教师交流群(QQ群号: 957763740,加群申请时需要提供高校和教师姓名进行验证),加入群以后,到群文件中,找到“大数据技术原理与应用(第4版)”目录,里面就可以下载了)
5.教学大纲(下载)
6.教材目录(查看)
7.讲义PPT(请到下面的“下载专区”的百度网盘中下载,百度网盘中同时提供了讲义PPT、软件、数据集、虚拟机镜像、教学大纲等)
8.教案(请到下面的“下载专区”的百度网盘中下载)
9.教材配套授课视频(在线MOOC)(观看)
10.课程思政(下载)
11.500道题库(获取题库)
12.综合案例:网站购物用户行为分析(查看)
13.教材配套大数据实验环境虚拟机镜像(请到本网页的“下载专区”下载镜像文件)
14.第24期大数据师资培训班(2024年7月21日-28日,厦门)(访问报名主页)
15.林子雨编著13本大数据系列教材及其配套教学资源(查看)
样书申请
授课教师可以向人民邮电出版社申请样书,出版社联系人孙澍(手机:18911351293),或者也可以扫描下面二维码申请样书。
扫码申请样书
下载专区
下载专区提供了与教材配套的各种资料的下载,包括讲义PPT(最新版本)、教学大纲、软件、数据集、虚拟机镜像文件等。可以直接访问百度网盘地址:https://pan.baidu.com/s/1hxpApQ-fHeTuGWBx791vQA?pwd=ziyu)(提取码是ziyu)
作者介绍
林子雨(1978-),男,博士(毕业于北京大学),国内高校知名大数据教师,厦门大学计算机科学与技术系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,全国工业大数据行业产教融合共同体特聘专家,入选“2021年高校计算机专业优秀教师奖励计划”,荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”和“2018年福建省高等教育教学成果奖二等奖(个人排名第一)”,编著出版13本大数据系列教材,被国内500多所高校采用,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过2500万次,成为全国高校大数据教学知名品牌,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,主持的课程《Spark编程基础》获评“2021年国家级线上一流本科课程”。建设的大数据系列MOOC课程入选“2023年教育部国家智慧教育公共服务平台应用典型案例”。
教材介绍
本书系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共14章,内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、大数据应用。本书在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等相关章安排了入门级的实验,以便读者能更好地学习和掌握大数据的关键技术。
本书可以作为高等院校大数据、计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考。
篇章介绍
第一篇 大数据基础
本篇内容介绍大数据(Big Data)的基本概念、影响和应用领域,并阐述大数据、云计算和物联网的相互关系,同时还将介绍大数据处理架构Hadoop。由于Hadoop已经成为应用最为广泛的大数据技术,因此,本书的大数据相关技术主要围绕Hadoop展开,包括Hadoop MapReduce、HDFS和HBase。本篇内容是理解后续其他篇章内容的基础。
本篇包括2章。第一章介绍大数据的概念和应用,分析了大数据、云计算和物联网的相互关系;第二章介绍大数据处理架构Hadoop。
第二篇 大数据存储
本篇介绍大数据存储相关技术的概念与原理,包括分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库和云数据库。HDFS提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。NoSQL数据库可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力,可以有效弥补传统关系型数据库的不足。云数据库是部署和虚拟化在云计算环境中的数据库,可以将用户从繁琐的数据库硬件定制中解放出来,同时让用户拥有强大的数据库扩展能力,满足各种不同类型用户的数据存储需求。需要特别指出的是,虽然云数据库在概念上更偏向于云计算的范畴,但是,云计算和大数据是密不可分的两种技术,不能割裂看待,而且,了解云数据库有助于拓展对大数据存储和管理方式的认识,因此,本篇内容介绍了云数据库的概念和相关产品。
本篇包括4章。第三章介绍分布式文件系统HDFS;第四章介绍分布式数据库HBase;第五章介绍NoSQL数据库;第六章介绍云数据库。
第三篇 大数据处理与分析
本篇介绍大数据处理与分析的相关技术。大数据包括静态数据和动态数据(流数据),静态数据适合采用批处理方式,动态数据需要进行实时计算。分布式并行编程框架MapReduce可以大幅提高程序性能,实现高效的批量数据处理。Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理,用户通过编写类似SQL的HiveQL语句就可以运行MapReduce任务,不必编写复杂的MapReduce应用程序。基于内存的分布式计算框架Spark,是一个可应用于大规模数据处理的快速、通用引擎,如今是Apache软件基金会下的顶级开源项目之一,正以其结构一体化、功能多元化的优势,逐渐成为当今大数据领域最热门的大数据计算平台。流计算框架Storm是一个低延迟、可扩展、高可靠的处理引擎,可以有效解决流数据的实时计算问题。Flink是一种具有代表性的开源流处理架构,具有十分强大的功能,它实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理。大数据中包括很多图结构数据,但是MapReduce不适合用来解决大规模图计算问题,因此新的图计算框架应运而生,Pregel就是其中一种具有代表性的产品。此外,数据可视化是大数据分析的最后环节,也是非常关键的一环,因此本篇简要介绍了数据可视化的概念和相关工具。
本篇包括八章。第7章介绍分布式并行编程框架MapReduce;第8章对Hadoop进行了再探讨;第9章介绍基于Hadoop的数据仓库Hive;第10章介绍基于内存的分布式计算框架Spark;第11章介绍流计算和开源流计算框架Storm;第12章介绍开源流处理框架Flink;第13章介绍图计算框架Pregel。
第四篇 大数据应用
大数据已经在社会生产和日常生活中得到了广泛的应用,对人类社会的发展进步起着重要的推动作用。本篇介绍大数据在互联网、生物医学、物流、城市管理、金融、汽车、零售、餐饮、电信、能源、体育娱乐、安全、政府、日常生活等方面的应用,从中我们可以深刻地感受到大数据对社会的影响及其重要价值。本篇包括1章,即第14章大数据应用。
第4版教材目录
教学实践
本教材源自林子雨老师在厦门大学计算机系的多年教学实践,从2013年开始已经应用于厦门大学计算机系研究生课程《大数据技术基础》和厦门大学本科生课程《大数据技术原理与应用》的实践教学,受到学生的欢迎!点击这里访问《大数据技术基础》2013班级主页。
时间 | 课程名称 | 课程性质 | 授课对象 | 授课内容 | 教材 | 班级主页 |
2013年秋季学期 | 大数据基础基础 | 专业选修课 | 厦大计算机系2013级研究生 | 大数据技术原理,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、Zookeeper、Google Spanner、Google Dremel等 | 林子雨编著《大数据技术基础》PDF免费开源电子书 | 访问主页 |
2016年春季学期 | 大数据处理技术 | 专业选修课 | 厦大计算机系2015级研究生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第1版)》 | 访问主页 |
2017年春季学期 | 大数据处理基础 | 专业选修课 | 厦大计算机系2016级研究生 | 基于内存的分布式计算框架Spark,完整讲解整套Spark技术 | 林子雨编著在线版《Spark入门教程》 | 访问主页 |
2017年春季学期 | 大数据技术原理与应用 | 全校公共选修课 | 厦大本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第2版)》 | 访问主页 |
2018年春季学期 | 大数据技术原理与应用 | 计算机系选修课 | 厦大计算机系大三本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第2版)》 | 访问主页 |
2019年春季学期 | 大数据技术原理与应用 | 计算机系选修课 | 厦大计算机系大三本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第2版)》 | 访问主页 |
2020年春季学期 | 大数据技术原理与应用 | 计算机系选修课 | 厦大计算机系大三本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第2版)》 | 访问主页 |
2021年春季学期 | 大数据技术原理与应用 | 计算机系选修课 | 厦大计算机系大三本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第3版)》 | 访问主页 |
2022年春季学期 | 大数据技术原理与应用 | 计算机系选修课 | 厦大计算机系大三本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第3版)》 | 访问主页 |
2023年春季学期 | 大数据技术原理与应用 | 计算机系选修课 | 厦大计算机系大三本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第3版)》 | 访问主页 |
2024年春季学期 | 大数据技术原理与应用 | 计算机系选修课 | 厦大计算机系大三本科生 | 大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等 | 林子雨编著《大数据技术原理与应用(第3版)》 | 访问主页 |
致谢
本书由林子雨执笔。从2015年至今,已经诞生第1版、第2版、第3版和第4版教材,在各个版本教材的撰写过程中,实验室很多同学做了大量辅助性工作,包括厦门大学计算机科学系硕士研究生刘颖杰(2012级硕士研究生)、叶林宝(2012级硕士研究生)、蔡珉星(2013级硕士研究生)、李雨倩(女,2013级硕士研究生)、谢荣东(2014级硕士研究生)、罗道文(2014级硕士研究生)、邓少军(2014级硕士研究生)、阮榕城(2015级硕士研究生)、薛倩(2015级硕士研究生)、魏亮(2016级硕士研究生)、曾冠华(2016级硕士研究生)、程璐(2017级硕士研究生)、林哲(2017级硕士研究生)、郑宛玉(2018级硕士研究生)、陈杰祥(2018级硕士研究生)、陈绍纬(2019级硕士研究生)、周伟敬(2019级硕士研究生)、阮敏朝(2020级硕士研究生)、刘官山(2020级硕士研究生)、黄连福(2020级硕士研究生)、周凤林(2021级硕士研究生)、吉晓函(2021级硕士研究生)、黄万嘉(2022级硕士研究生)、曹基民(2022级硕士研究生)以及本科生黄梓铭(2011级本科生)、李粲(女,2012级本科生)等。在此,向这些同学的辛勤工作表示衷心的感谢。同时,衷心感谢实验室夏小云老师对教材建设作出的大量奉献。
刘颖杰 | 叶林宝 | 蔡珉星 | 李雨倩 |
谢荣东 | 罗道文 | 黄梓铭 | 李粲 |
阮榕城 | 薛倩 | 魏亮 | 曾冠华 |
程璐 | 林哲 | 郑宛玉 | 陈杰祥 |
陈绍纬 | 周伟敬 | 阮敏朝 | 刘官山 |
黄连福 | 周凤林 | 吉晓函 | 黄万嘉 |
曹基民 | 王雅南 | 夏小云 | 林子雨 |