《大数据基础编程、实验和案例教程》教材官网

《大数据基础编程、实验和案例教程》教材官网

厦门大学 林子雨 编著

本书已经在京东、当当等各大网店销售

进入京东购买本书 |  进入当当网购买本书

清华大学出版社  ISBN:978-7-302-47209-4  定价:59元

获取教程所有章节的原始代码(命令行语句和程序)


 本页面内容导航: 教程简介 | 下载专区 | 在线视频 | 大数据课程公共服务平台 | 致谢


本书是与《大数据技术原理与应用》教材配套的唯一指定实验指导书

大数据基础编程教材官网二维码

扫一扫访问本网页

步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路
深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法
精心设计,巧妙融合,五套大数据实验题目促进理论与编程知识的消化和吸收
结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程

全国高校大数据教学知名教师历时四年倾心之作
全国众多高校开课教材《大数据技术原理与应用》唯一指定配套实验指导书
教程官网提供全书实验代码、相关软件、授课视频等资源一站式免费下载
高校大数据课程公共服务平台为本教程提供数字化教学资源全方位配套服务

祝贺《大数据技术原理与应用》MOOC课程在中国大学MOOC上线观看

教程简介

本教程是林子雨编著《大数据技术原理与应用》教材(教材官网)的配套实验指导书。《大数据技术原理与应用》侧重于大数据知识框架和理论介绍,而本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本教程中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。

《大数据基础编程、实验和案例教程》前言

大数据时代已经全面开启,带来了信息技术的巨大变革,并深刻影响着社会生产和人民生活的方方面面。大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,需要及时建立起大数据课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。

高质量的教材是推进高校大数据课程体系建设的关键支撑。2013年12月,笔者根据自己主讲厦门大学计算机系研究生大数据课程的教学实践,编写了电子书《大数据基础基础》,通过网络免费发布,获得了较好地反响。此后两年多的时间里,笔者继续对大数据技术知识体系进行了深入学习和系统梳理,并结合教学实践和大量调研,编著出版了《大数据技术原理与应用》教材,该书第1版于2015年8月出版发行,第2版于2017年2月出版发行。《大数据技术原理与应用》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。

《大数据技术原理与应用》出版以后,获得了较高的认可,目前已经成为国内多所高校的大数据课程教材。与此同时,笔者在最近两年通过各种形式助力全国高校加快推进大数据课程建设,包括建设全国高校大数据课程公共服务平台、开展全国高校大数据公开课巡讲计划、组织全国高校大数据教学论坛、举办全国高校大数据课程教师培训交流班等。通过这些活动,笔者与全国高校广大大数据课程教师有了更深的接触和交流,也收集到了广大一线教师的核心教学需求。很多高校老师在高度肯定《大数据技术原理与应用》教材的同时,也提出了很多中肯的改进意见和建议,其中,有很多老师指出,应该加强大数据实践环节的训练,提供实验指导和综合案例。

为了更好满足高校教学实际需求,笔者带领厦门大学数据库实验团队,开展了大量的探索和实践,并对实践材料进行系统整理编写了本教程。本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在本教程中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。

本教程共12章,详细介绍了系统和软件的安装、使用以及基础编程方法。第1章介绍大数据关键技术和代表性软件,帮助读者形成对大数据技术及其代表性软件的总体性认识;第2章介绍Linux系统的安装和使用方法,为后面其他章节的学习奠定基础;第3章介绍分布式计算框架Hadoop的安装和使用方法;第4章介绍分布式文件系统HDFS的基础编程方法;第5章介绍分布式数据库HBase的安装和基础编程方法;第6章介绍典型NoSQL数据库的安装和使用方法,包括键值数据库Redis和文档数据库MongoDB;第7章介绍如何编写基本的MapReduce程序;第8章介绍基于Hadoop的数据仓库Hive的安装和使用方法;第9章介绍基于内存的分布式计算框架Spark的安装和基础编程方法;第10章介绍5种典型的可视化工具的安装和使用方法,包括Easel.ly、D3、魔镜、ECharts、Tableau等;第11章介绍数据采集工具的安装和使用方法,包括Flume、Kafka和Sqoop。第12章介绍一个大数据课程综合实验案例,即网站用户购物行为分析。

本教程面向高校计算机和信息管理等相关专业的学生,可以作为专业必修课或选修课的辅助教材。本教程是《大数据技术原理与应用》的“姊妹书”,可以作为《大数据技术原理与应用》的辅助配套教程,两本书组合使用,可以达到更好的学习效果。此外,本教程也可以和市场上现有的其他大数据教材配套使用,作为教学辅助用书。

书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

本教程官方网站是http://dblab.xmu.edu.cn/post/bigdatapractice/,免费提供了全部配套资源的在线浏览和下载,并接受错误反馈和发布勘误信息。同时,在学习大数据课程的过程中,欢迎读者访问厦门大学数据库实验室建设的国内高校首个大数据课程公共服务平台(http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),该平台为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。

本书在撰写过程中,参考了大量网络资料,对大数据技术及其典型软件进行了系统梳理,有选择地把一些重要知识纳入本书。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。

下载专区

点击这里查看网页版“教程所有章节中的代码(包含命令行和程序)”,可以直接复制粘贴到自己机器上执行。

“下载专区”所有资源全部放在百度云盘中(请点击这里访问),需要在电脑上安装百度云盘客户端,才能顺利下载内容。

“下载专区”栏目提供了本教程内各个章节所涉及到的源代码和软件的下载,为了方便读者查找相关软件和代码,下表给出了教程官网“下载专区”目录及其内容的概览。

目录 文件清单
软件 spark-streaming_2.10-1.6.2.jar

spark-streaming-kafka_2.10-1.6.2.jar

sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

kafka_2.10-0.10.1.0.tgz

apache-flume-1.7.0-bin.tar.gz

mysql-connector-java-5.1.40.tar.gz

apache-hive-1.2.1-bin.tar.gz

eclipse-java-mars-2-win32-x86_64.zip

FileZilla_3.17.0.0_win64_setup.exe

hadoop-2.7.1.tar.gz

hbase-1.1.5-bin.tar.gz

mongo-java-driver-3.2.2.jar

mongodb-linux-x86_64-ubuntu1604-3.2.7.tgz

putty_V0.63.0.0.43510830.exe

sbt-launch.jar

SecurAble.exe

spark-1.6.2-bin-without-hadoop.tgz

Ubuntu16.04-hadoop2.7.1-spark1.6.2-XMU-linziyu-20161123.ova

ubuntukylin-16.04-desktop-amd64.iso

VirtualBox_5.0.10.4061_104061_Win.1448355141.exe

代码 第3章 core-site.xml;hdfs-site.xml;mapred-site.xml;yarn-site.xml
第4章 HDFSCreateFile.java;HDFSFileIfExist.java;HDFSReadFile.java
第5章 HBaseOperation.java
第6章 MongoDBExample.java
第7章 WordCount.java
第8章 hive-site.xml
第9章 pom.xml;simple.sbt;SimpleApp.java;SimpleApp.scala
第10章 example1.html;example2.html;example3.html;example4.html;example5.html;example6.html;toolbox.html
第11章 avro.conf;example.conf;KafkaWordCount.scala;KafkaWordProducer.scala;simple.sbt;StreamingExamples.scala
第12章 ImportHBase.java;pre_deal.sh
数据集 第12章 user.zip
实验答案 附录A 附录A:大数据课程实验答案.pdf

 

在线视频

课程图片

点击这里观看在线课程视频

本教程是笔者编著的另外一本教材《大数据技术原理与应用》的“姊妹书”,本书可以作为《大数据技术原理与应用》的配套教学辅助用书。

《大数据技术原理与应用》一书侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。

与《大数据技术原理与应用》教材不同,本教程侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了丰富的实验和案例。本教程可以作为《大数据技术原理与应用》的配套教程,两本书组合使用,可以达到更好的学习效果。此外,本教程也可以和市场上现有的其他大数据教材配套使用。

《大数据技术原理与应用》教材拥有配套的高清课程视频,共13讲,视频累计长度1300分钟。读者在学习本教程的同时,可以通过观看在线视频,了解相关大数据技术的实现原理,从而更好实践大数据技术。为了让读者在学习本教程时能够快速找到对应的在线视频内容,这里给出本教程和在线视频之间的章节对应关系(如下表所示)。

点击这里观看在线课程视频

本教程章节

《大数据技术原理与应用》视频

第1章 大数据技术概述 第1讲 大数据概述
第2章 Linux系统的安装和使用
第3章 Hadoop的安装和使用 第2讲 大数据处理架构Hadoop
第4章 HDFS操作方法和基础编程 第3讲 分布式文件系统HDFS
第5章 HBase的安装和基础编程 第4讲 分布式数据库HBase
第6章 典型NoSQL数据库的安装和使用 第5讲 NoSQL数据库
第7章 MapReduce基础编程 第7讲 MapReduce
第8章 数据仓库Hive的安装和使用 第8讲 基于Hadoop的数据仓库Hive
第9章 Spark的安装和基础编程 第10讲 Spark
第10章 典型可视化工具的使用方法
第11章 数据采集工具的安装和使用
第12章 大数据课程综合实验案例

点击这里观看在线课程视频

致谢

书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

(2017年7月22日 林子雨在实验室展示教材)