版权声明:本站对站内所有资源拥有版权,严禁用于商业用途,侵权必究
《大数据基础编程、实验和案例教程》教材官网
厦门大学 林子雨 编著
E-mail: ziyulin@xmu.edu.cn
清华大学出版社 ISBN:978-7-302-47209-4 定价:59元 2017年8月第1版
访问2020年10月第2版教材官网
本页面内容导航: 教程简介 |教材目录| 下载专区 | 在线视频 | 大数据课程公共服务平台 | 致谢
本书是与《大数据技术原理与应用》教材配套的唯一指定实验指导书
扫一扫访问本网页
步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路
深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法
精心设计,巧妙融合,五套大数据实验题目促进理论与编程知识的消化和吸收
结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程
本教程是林子雨编著《大数据技术原理与应用》教材(教材官网)的配套实验指导书。《大数据技术原理与应用》侧重于大数据知识框架和理论介绍,而本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本教程中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。
《大数据基础编程、实验和案例教程》前言
大数据时代已经全面开启,带来了信息技术的巨大变革,并深刻影响着社会生产和人民生活的方方面面。大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,需要及时建立起大数据课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。
高质量的教材是推进高校大数据课程体系建设的关键支撑。2013年12月,笔者根据自己主讲厦门大学计算机系研究生大数据课程的教学实践,编写了电子书《大数据基础基础》,通过网络免费发布,获得了较好地反响。此后两年多的时间里,笔者继续对大数据技术知识体系进行了深入学习和系统梳理,并结合教学实践和大量调研,编著出版了《大数据技术原理与应用》教材,该书第1版于2015年8月出版发行,第2版于2017年2月出版发行。《大数据技术原理与应用》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。
《大数据技术原理与应用》出版以后,获得了较高的认可,目前已经成为国内多所高校的大数据课程教材。与此同时,笔者在最近两年通过各种形式助力全国高校加快推进大数据课程建设,包括建设全国高校大数据课程公共服务平台、开展全国高校大数据公开课巡讲计划、组织全国高校大数据教学论坛、举办全国高校大数据课程教师培训交流班等。通过这些活动,笔者与全国高校广大大数据课程教师有了更深的接触和交流,也收集到了广大一线教师的核心教学需求。很多高校老师在高度肯定《大数据技术原理与应用》教材的同时,也提出了很多中肯的改进意见和建议,其中,有很多老师指出,应该加强大数据实践环节的训练,提供实验指导和综合案例。
为了更好满足高校教学实际需求,笔者带领厦门大学数据库实验团队,开展了大量的探索和实践,并对实践材料进行系统整理编写了本教程。本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本教程中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。
本教程共12章,详细介绍了系统和软件的安装、使用以及基础编程方法。第1章介绍大数据关键技术和代表性软件,帮助读者形成对大数据技术及其代表性软件的总体性认识;第2章介绍Linux系统的安装和使用方法,为后面其他章节的学习奠定基础;第3章介绍分布式计算框架Hadoop的安装和使用方法;第4章介绍分布式文件系统HDFS的基础编程方法;第5章介绍分布式数据库HBase的安装和基础编程方法;第6章介绍典型NoSQL数据库的安装和使用方法,包括键值数据库Redis和文档数据库MongoDB;第7章介绍如何编写基本的MapReduce程序;第8章介绍基于Hadoop的数据仓库Hive的安装和使用方法;第9章介绍基于内存的分布式计算框架Spark的安装和基础编程方法;第10章介绍5种典型的可视化工具的安装和使用方法,包括Easel.ly、D3、魔镜、ECharts、Tableau等;第11章介绍数据采集工具的安装和使用方法,包括Flume、Kafka和Sqoop。第12章介绍一个大数据课程综合实验案例,即网站用户购物行为分析。
本教程面向高校计算机和信息管理等相关专业的学生,可以作为专业必修课或选修课的辅助教材。本教程是《大数据技术原理与应用》的“姊妹书”,可以作为《大数据技术原理与应用》的辅助配套教程,两本书组合使用,可以达到更好的学习效果。此外,本教程也可以和市场上现有的其他大数据教材配套使用,作为教学辅助用书。
书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。
本教程官方网站是https://dblab.xmu.edu.cn/post/bigdatapractice/,免费提供了全部配套资源的在线浏览和下载,并接受错误反馈和发布勘误信息。同时,在学习大数据课程的过程中,欢迎读者访问厦门大学数据库实验室建设的国内高校首个大数据课程公共服务平台(https://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),该平台为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。
本书在撰写过程中,参考了大量网络资料,对大数据技术及其典型软件进行了系统梳理,有选择地把一些重要知识纳入本书。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。
版权声明:本站对站内所有资源拥有版权,严禁用于商业用途,侵权必究
点击这里查看网页版“教程所有章节中的代码(包含命令行和程序)”,可以直接复制粘贴到自己机器上执行。
“下载专区”所有资源全部放在百度云盘中(请点击这里访问)(提取码:jysh),需要在电脑上安装百度云盘客户端,才能顺利下载内容。
“下载专区”栏目提供了本教程内各个章节所涉及到的源代码和软件的下载,为了方便读者查找相关软件和代码,下表给出了教程官网“下载专区”目录及其内容的概览。
目录 | 文件清单 | |
软件 | spark-streaming_2.10-1.6.2.jar
spark-streaming-kafka_2.10-1.6.2.jar sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz kafka_2.10-0.10.1.0.tgz apache-flume-1.7.0-bin.tar.gz mysql-connector-java-5.1.40.tar.gz apache-hive-1.2.1-bin.tar.gz eclipse-java-mars-2-win32-x86_64.zip FileZilla_3.17.0.0_win64_setup.exe hadoop-2.7.1.tar.gz hbase-1.1.5-bin.tar.gz mongo-java-driver-3.2.2.jar mongodb-linux-x86_64-ubuntu1604-3.2.7.tgz putty_V0.63.0.0.43510830.exe sbt-launch.jar SecurAble.exe spark-1.6.2-bin-without-hadoop.tgz Ubuntu16.04-hadoop2.7.1-spark1.6.2-XMU-linziyu-20161123.ova ubuntukylin-16.04-desktop-amd64.iso VirtualBox_5.0.10.4061_104061_Win.1448355141.exe |
|
代码 | 第3章 | core-site.xml;hdfs-site.xml;mapred-site.xml;yarn-site.xml |
第4章 | HDFSCreateFile.java;HDFSFileIfExist.java;HDFSReadFile.java | |
第5章 | HBaseOperation.java | |
第6章 | MongoDBExample.java | |
第7章 | WordCount.java | |
第8章 | hive-site.xml | |
第9章 | pom.xml;simple.sbt;SimpleApp.java;SimpleApp.scala | |
第10章 | example1.html;example2.html;example3.html;example4.html;example5.html;example6.html;toolbox.html | |
第11章 | avro.conf;example.conf;KafkaWordCount.scala;KafkaWordProducer.scala;simple.sbt;StreamingExamples.scala | |
第12章 | ImportHBase.java;pre_deal.sh | |
数据集 | 第12章 | user.zip |
实验答案 | 附录A | 附录A:大数据课程实验答案.pdf |
本教程是笔者编著的另外一本教材《大数据技术原理与应用》的“姊妹书”,本书可以作为《大数据技术原理与应用》的配套教学辅助用书。
《大数据技术原理与应用》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。
与《大数据技术原理与应用》教材不同,本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了丰富的实验和案例。本教程可以作为《大数据技术原理与应用》的配套教程,两本书组合使用,可以达到更好的学习效果。此外,本教程也可以和市场上现有的其他大数据教材配套使用。
《大数据技术原理与应用》教材拥有配套的高清课程视频,共13讲,视频累计长度1300分钟。读者在学习本教程的同时,可以通过观看在线视频,了解相关大数据技术的实现原理,从而更好实践大数据技术。为了让读者在学习本教程时能够快速找到对应的在线视频内容,这里给出本教程和在线视频之间的章节对应关系(如下表所示)。
本教程章节 |
《大数据技术原理与应用》视频 |
第1章 大数据技术概述 | 第1讲 大数据概述 |
第2章 Linux系统的安装和使用 | 无 |
第3章 Hadoop的安装和使用 | 第2讲 大数据处理架构Hadoop |
第4章 HDFS操作方法和基础编程 | 第3讲 分布式文件系统HDFS |
第5章 HBase的安装和基础编程 | 第4讲 分布式数据库HBase |
第6章 典型NoSQL数据库的安装和使用 | 第5讲 NoSQL数据库 |
第7章 MapReduce基础编程 | 第7讲 MapReduce |
第8章 数据仓库Hive的安装和使用 | 第8讲 基于Hadoop的数据仓库Hive |
第9章 Spark的安装和基础编程 | 第10讲 Spark |
第10章 典型可视化工具的使用方法 | 无 |
第11章 数据采集工具的安装和使用 | 无 |
第12章 大数据课程综合实验案例 | 无 |
本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。
(2017年7月22日 林子雨在实验室展示教材)