访问最新2024年8月第3版教材官网
大数据基础编程、实验和案例教程(第2版)教材官网
厦门大学 林子雨 编著
E-mail: ziyulin@xmu.edu.cn
本书已经在京东、当当等各大网店销售
清华大学出版社 ISBN:978-7-302-55977-1 定价:69元 2020年10月第2版
(备注:第3版教材书稿已经提交出版社,预计2024年7月上市销售)
本页面内容导航: 教程简介 |教材目录| 下载专区 |讲义PPT| 在线视频 | 第1版教材
本书是与《大数据技术原理与应用(第3版)》教材配套的唯一指定实验指导书
扫一扫访问本网页
步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路
深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法
精心设计,巧妙融合,八套大数据实验题目促进理论与编程知识的消化和吸收
结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程
清华大学出版社 ISBN:978-7-302-55977-1 定价:69元 2020年10月第2版
本教程是林子雨编著《大数据技术原理与应用(第3版)》教材的配套实验指导书。《大数据技术原理与应用》侧重于大数据知识框架和理论介绍,而本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本教程中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。
本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法,内容涵盖了操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Kafaka、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、D3、ECharts)等。同时,提供了丰富的课程实验和综合案例以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。
《大数据基础编程、实验和案例教程(第2版)》前言
《大数据基础编程、实验和案例教程》第1版于2017年7月出版,在过去的两年多时间里,大数据技术又获得了新的发展,开源流计算框架Flink迅速崛起,在市场上和Spark展开了激烈的角逐。与此同时,Hadoop和Spark的版本也在不断更新升级,一些编程接口发生了变化。因此,为了适应大数据技术的新发展,继续保持本书的先进性和实用性,我们及时对第1版内容进行了补充和修订。
这里对第1版教材的修改做一些简要说明。在“第2章 Linux系统的安装和使用”部分,对VirtualBox软件进行了版本升级,并修改了在Linux系统中安装Eclipse的方法。在“第3章 Hadoop的安装和使用”部分,修改了Hadoop版本的介绍,修改了Java环境的安装方法,把Hadoop版本升级到了3.1.3,同时,删除了“使用Docker搭建Hadoop分布式集群”这部分内容,因为该内容在教学中很少被使用。在“第4章 HDFS操作方法和基础编程”部分,把Hadoop版本升级到了3.1.3,并根据最新版本的特点对HDFS相关内容作了修改,同时对HDFS编程实践的内容进行重新撰写。在“第5章 HBase的安装和基础编程”部分,把HBase版本升级到了2.2.2,版本升级以后,HBase的安装配置方法和相关的编程接口也发生了变化,因此,对编程接口和实例代码进行了大量修改。在“第6章 典型NoSQL数据库的安装和使用”部分,把Redis升级到了较新的5.0.5版本,并对由于版本升级而发生变化的内容做了修改。在“第7章 MapReduce基础编程”部分,把Hadoop版本升级到了3.1.3,并对由于版本升级而发生变化的相关内容做了修改。在“第8章 数据仓库Hive的安装和使用”,把Hive版本升级到了3.1.2,并对由于版本升级而发生变化的相关内容做了修改。在“第9章 Spark的安装和基础编程”部分,把Spark版本升级到了2.4.0,并对由于版本升级而发生变化的相关内容做了修改。新增“第10章 Flink的安装和基础编程”,以反映当前新兴的大数据处理技术,并介绍了Flink的安装和基础编程方法。在“第11章 典型可视化工具的使用方法”部分,删除了一些教学环节不太方便开展实践的内容,包括Easel.ly、Tableau和魔镜等,因为这些技术产品存在官网无法访问、需要用户注册才能使用等问题。在“第12章 数据采集工具的安装和使用”,删除了Flume的内容,因为,Flume的内容比较孤立,学习以后没有和其他章节的内容进行有效结合,同时删除了Sqoop的内容,因为Sqoop没有提供对最新版Hadoop和Hive等软件的支持。在“第13章 大数据课程综合实验案例”部分,把各个大数据软件的版本都进行了升级,并删除了和Sqoop相关的操作实践,因为Sqoop不支持新版的Hadoop和Hive,同时,增加了使用Java程序把Hive中的数据导入MySQL。在“第14章 实验”部分,把实验中相关软件升级到了较新的版本,并新增了3个实验,从而帮助读者更好实践Hive、Spark和Flink等大数据技术。
本书第1版是《大数据技术原理与应用(第2版)》的“姊妹书”,前者可以作为后者的课程配套实验手册。由于《大数据技术原理与应用(第2版)》已经在全国高校得到了广泛的使用,大量高校采用该教材开设了大数据课程,因此,这也带动了本书第1版在高校的大量使用。在使用过程中,一些高校老师积极反馈了很多宝贵的意见和建议,为我们团队进行本书第2版的创作提供了很好的方向指引。同时,笔者也在厦门大学开设了大数据课程,并把本书第1版积极应用在实践教学中,让教材在教学实践中经受检验。现在,《大数据技术原理与应用(第2版)》已经改版到了第3版,作为配套“姊妹书”,本书也及时从第1版升级到了第2版,也就是说,在今后的教学过程中,本书第2版是和《大数据技术原理与应用(第3版)》配套使用的。当然,通过过去全国高校老师的反馈信息,我们也了解到,不少高校会直接把本书作为单独的课程教材(而不是配套的实验手册)来使用,因此,本书第2版也是可以作为独立教材来使用的。
本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生程璐、林哲、郑宛玉、陈杰祥、陈绍纬、周伟敬等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。
本书官方网站是https://dblab.xmu.edu.cn/post/bigdatapractice2/,免费提供了全部配套资源的在线浏览和下载,并接受错误反馈和发布勘误信息。时,在学习大数据课程的过程中,欢迎读者访问厦门大学数据库实验室建设的国内高校首个大数据课程公共服务平台(https://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),该平台为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。
大数据技术处于快速发展变革之中,我们厦门大学数据库实验室团队会持续跟踪大数据技术发展趋势,努力保持本书内容的新颖性,并把一些较新的教学内容及时发布到本书官网。由于笔者能力有限,书中难免存在不足之处,望广大读者不吝赐教。
林子雨
厦门大学计算机科学系数据库实验室
2020年3月
讲义PPT
讲义PPT会不断更新,最新版本的教材配套讲义PPT已经全部放在百度云盘中(请点击这里访问)(提取码:ziyu),需要在电脑上安装百度云盘客户端,才能顺利下载内容。
(以下PPT是2020年12月版本)
章节 | PPT | |
第1章-大数据技术概述 | 下载 | 下载 |
第2章-Linux系统的安装和使用 | 下载 | 下载 |
第3章-Hadoop的安装和使用 | 下载 | 下载 |
第4章-HDFS操作方法和基础编程 | 下载 | 下载 |
第5章-HBase的安装和基础编程 | 下载 | 下载 |
第6章-典型NoSQL数据库的安装和使用 | 下载 | 下载 |
第7章-MapReduce基础编程 | 下载 | 下载 |
第8章-数据仓库Hive的安装和使用 | 下载 | 下载 |
第9章-Spark的安装和基础编程 | 下载 | 下载 |
第10章-Flink的安装和基础编程 | 下载 | 下载 |
第11章-典型的可视化工具的使用方法 | 下载 | 下载 |
第12章-数据采集工具的安装和使用 | 下载 | 下载 |
第13章-大数据课程综合实验案例 | 下载 | 下载 |
版权声明:本站对站内所有资源拥有版权,严禁用于商业用途,侵权必究
点击这里查看网页版“教程所有章节中的代码(包含命令行和程序)”,可以直接复制粘贴到自己机器上执行。
“下载专区”所有资源全部放在百度云盘中(请点击这里访问)(提取码:ziyu),需要在电脑上安装百度云盘客户端,才能顺利下载内容。
“下载专区”栏目提供了本教程内各个章节所涉及到的源代码和软件的下载,为了方便读者查找相关软件和代码,下表给出了教程官网“下载专区”目录及其内容的概览。
表1-6 教程官网“下载专区”目录及其内容概览
目录 | 文件清单 | |
讲义PPT | 教材配套讲义PPT | |
软件 | apache-hive-3.1.2-bin.tar.gzapache-maven-3.6.3-bin.zipeclipse-4.7.0-linux.gtk.x86_64.tar.gzFileZilla_3.17.0.0_win64_setup.exeflink-1.9.1-bin-scala_2.11.tgzhadoop-3.1.3.tar.gzhbase-2.2.2-bin.tar.gzjdk-8u162-linux-x64.tar.gz
kafka_2.11-0.10.2.0.tgz mysql-connector-java-5.1.40.tar.gz mongo-java-driver-3.12.1.jar putty_V0.63.0.0.43510830.exe redis-5.0.5.tar.gz sbt-1.3.8.tgz SecurAble.rar spark-2.4.0-bin-without-hadoop.tgz spark-streaming-kafka-0-8_2.11-2.4.0.jar ubuntukylin-16.04-desktop-amd64.iso VirtualBox-6.1.2.135663-Win.exe |
|
代码 | 第3章 | 伪分布式(core-site.xml;hdfs-site.xml);分布式(workers;core-site.xml;hdfs-site.xml;mapred-site.xml;yarn-site.xml) |
第4章 | MergeFile.java | |
第5章 | 单机模式(hbase-site.xml);伪分布式(hbase-site.xml);ExampleForHBase.java | |
第6章 | MongoDBExample.java | |
第7章 | WordCount.java | |
第8章 | hive-site.xml | |
第9章 | sbt;pom.xml;simple.sbt;SimpleApp.java;SimpleApp.scala | |
第10章 | WordCountData.java;WordCountTokenizer.java;WordCount.java;pom.xml | |
第11章 | d3.zip;example1.html;example2.html;example3.html;example4.html;example5.html;echarts.js;example6.html;toolbox.html | |
第12章 | KafkaWordCount.scala;KafkaWordProducer.scala;simple.sbt;StreamingExamples.scala | |
第13章 | HivetoMySQL.java;ImportHBase.java;pre_deal.sh | |
数据集 | 第13章 | user.zip |
第14章 | prog-hive-1st-ed-data.zip | |
实验答案 | 附录A | 附录A:大数据课程实验答案.pdf |
本教程是笔者编著的另外一本教材《大数据技术原理与应用(第3版)》的“姊妹书”,本书可以作为《大数据技术原理与应用(第3版)》的配套教学辅助用书。
《大数据技术原理与应用(第3版)》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、数据仓库Hive、大数据处理架构Spark、流计算、流计算框架Flink、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。
与《大数据技术原理与应用(第3版)》教材不同,本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了丰富的实验和案例。本教程可以作为《大数据技术原理与应用(第3版)》的配套实验手册,两本书组合使用,可以达到更好的学习效果。此外,本教程也可以和市场上现有的其他大数据教材配套使用。
《大数据技术原理与应用(第3版)》教材拥有配套的高清课程视频,共14讲,视频累计长度1300分钟。读者在学习本教程的同时,可以通过观看在线视频,了解相关大数据技术的实现原理,从而更好实践大数据技术。为了让读者在学习本教程时能够快速找到对应的在线视频内容,这里给出本教程和在线视频之间的章节对应关系(如下表所示)。
表 本教程和在线视频之间的章节对应关系
本教程章节 |
《大数据技术原理与应用》视频 |
第1章 大数据技术概述 | 第1讲 大数据概述 |
第2章 Linux系统的安装和使用 | 无 |
第3章 Hadoop的安装和使用 | 第2讲 大数据处理架构Hadoop |
第4章 HDFS操作方法和基础编程 | 第3讲 分布式文件系统HDFS |
第5章 HBase的安装和基础编程 | 第4讲 分布式数据库HBase |
第6章 典型NoSQL数据库的安装和使用 | 第5讲 NoSQL数据库 |
第7章 MapReduce基础编程 | 第7讲 MapReduce |
第8章 数据仓库Hive的安装和使用 | 第9讲 基于Hadoop的数据仓库Hive |
第9章 Spark的安装和基础编程 | 第10讲Spark |
第10章 Flink的安装和基础编程 | 第12讲 Flink |
第11章 典型可视化工具的使用方法 | 无 |
第12章 数据采集工具的安装和使用 | 无 |
第13章 大数据课程综合实验案例 | 无 |
致谢
本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生陈绍纬、周伟敬等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。