大数据基础编程、实验和案例教程(第3版)教材官网
厦门大学 林子雨 编著
E-mail: ziyulin@xmu.edu.cn
清华大学出版社 ISBN:978-7-302-66922-7 定价:69元 2024年8月第3版
本页面内容导航: 教程简介 |教材目录| 下载专区(讲义PPT、软件等) | 在线视频 | 第2版教材
本书是与《大数据技术原理与应用(第4版)》教材配套的唯一指定实验指导书
扫一扫访问本网页
步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路
深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法
精心设计,巧妙融合,八套大数据实验题目促进理论与编程知识的消化和吸收
结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程
本教程是林子雨编著《大数据技术原理与应用(第4版)》教材的配套实验指导书。《大数据技术原理与应用》侧重于大数据知识框架和理论介绍,而本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本教程中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。
本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法,内容涵盖了操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Kafaka、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、Matplotlib)等。同时,提供了丰富的课程实验和综合案例以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。
版权声明:本站对站内所有资源拥有版权,严禁用于商业用途,侵权必究
点击这里查看网页版“教程所有章节中的代码(包含命令行和程序)”,可以直接复制粘贴到自己机器上执行。
“下载专区”所有资源(包括讲义PPT、软件、代码、数据集、实验答案等),全部放在百度云盘中(请点击这里访问)(提取码:ziyu),需要在电脑上安装百度云盘客户端,才能顺利下载内容。
“下载专区”栏目提供了本教程内各个章节所涉及到的源代码和软件的下载,为了方便读者查找相关软件和代码,下表给出了教程官网“下载专区”目录及其内容的概览。
表1-6 教程官网“下载专区”目录及其内容概览
目录 |
文件清单 |
|
软件 |
apache-hive-3.1.3-bin.tar.gz apache-maven-3.9.2-bin.zip eclipse-4.7.0-linux.gtk.x86_64.tar.gz flink-1.16.2-bin-scala_2.12.tgz hadoop-3.3.5.tar.gz hbase-2.5.4-bin.tar.gz jdk-8u371-linux-x64.tar.gz kafka_2.12-2.6.0.tgz kafka-clients-2.6.0.jar mysql-connector-java-5.1.40.tar.gz mongo-java-driver-3.2.2.jar mongodb-linux-x86_64-ubuntu1604-4.4.22.tgz redis-6.0.6.tar.gz sbt-1.9.0.tgz spark-3.4.0-bin-without-hadoop.tgz spark-streaming-kafka-0-10_2.12-3.4.0.jar spark-token-provider-kafka-0-10_2.12-3.4.0.jar ubuntukylin-16.04-desktop-amd64.iso VMware-workstation-full-17.0.1.exe |
|
代码 |
第3章 |
伪分布式(core-site.xml;hdfs-site.xml);分布式(workers;core-site.xml;hdfs-site.xml;mapred-site.xml;yarn-site.xml) |
第4章 |
MergeFile.java |
|
第5章 |
单机模式(hbase-site.xml);伪分布式(hbase-site.xml);ExampleForHBase.java |
|
第6章 |
JedisTest.java;MongoDBExample.java |
|
第7章 |
WordCount.java |
|
第8章 |
hive-site.xml |
|
第9章 |
sbt;pom.xml;simple.sbt;SimpleApp.java;SimpleApp.scala |
|
第10章 |
WordCountData.java;WordCountTokenizer.java;WordCount.java;pom.xml |
|
第11章 |
KafkaWordCount.scala;KafkaWordProducer.scala;simple.sbt; |
|
第12章 |
绘图代码.txt |
|
第13章 |
HivetoMySQL.java;ImportHBase.java;pre_deal.sh |
|
数据集 |
第13章 |
user.zip |
第14章 |
prog-hive-1st-ed-data.zip |
|
实验答案 |
附录A |
附录A:大数据课程实验答案.pdf |
本教程是笔者编著的另外一本教材《大数据技术原理与应用(第4版)》的“姊妹书”,本书可以作为《大数据技术原理与应用(第4版)》的配套教学辅助用书。
《大数据技术原理与应用(第4版)》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、数据仓库Hive、大数据处理架构Spark、流计算、流计算框架Flink、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。
与《大数据技术原理与应用(第4版)》教材不同,本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了丰富的实验和案例。本教程可以作为《大数据技术原理与应用(第4版)》的配套实验手册,两本书组合使用,可以达到更好的学习效果。此外,本教程也可以和市场上现有的其他大数据教材配套使用。
《大数据技术原理与应用(第4版)》教材拥有配套的高清课程视频,共14讲,视频累计长度1300分钟。读者在学习本教程的同时,可以通过观看在线视频,了解相关大数据技术的实现原理,从而更好实践大数据技术。为了让读者在学习本教程时能够快速找到对应的在线视频内容,这里给出本教程和在线视频之间的章节对应关系(如下表所示)。
表 本教程和在线视频之间的章节对应关系
本教程章节 |
《大数据技术原理与应用》视频 |
第1章 大数据技术概述 | 第1讲 大数据概述 |
第2章 Linux系统的安装和使用 | 无 |
第3章 Hadoop的安装和使用 | 第2讲 大数据处理架构Hadoop |
第4章 HDFS操作方法和基础编程 | 第3讲 分布式文件系统HDFS |
第5章 HBase的安装和基础编程 | 第4讲 分布式数据库HBase |
第6章 典型NoSQL数据库的安装和使用 | 第5讲 NoSQL数据库 |
第7章 MapReduce基础编程 | 第7讲 MapReduce |
第8章 数据仓库Hive的安装和使用 | 第9讲 基于Hadoop的数据仓库Hive |
第9章 Spark的安装和基础编程 | 第10讲Spark |
第10章 Flink的安装和基础编程 | 第12讲 Flink |
第11章 数据采集工具的安装和使用 | 无 |
第12章 数据可视化技术及Matplotlib的使用方法 | 无 |
第13章 大数据课程综合实验案例 | 无 |
致谢
本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系2023级硕士研究生黄万嘉、曹基民等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。