林子雨编著《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南

厦门大学林子雨编著《大数据技术原理与应用》

教材配套大数据软件安装和编程实践指南

访问教材官网

作者:厦门大学计算机科学系 林子雨(ziyulin@xmu.edu.cn, http://www.cs.xmu.edu.cn/linziyu)

工信部”全国云计算及大数据应用技术人才培训考试项目”唯一指定大数据教材

全国多所高校大数据课程选用本教材,京东、当当等各大网店畅销书籍

入门级精品教材,丰富的教材配套资源帮助读者实现“零基础”学习大数据

下载教材配套讲义PPT | 当当网购买本书|京东商城购买本书|亚马逊购买本书

面向教师的大数据课程教师服务站 | 面向学生的大数据课程学生服务站

林子雨大数据技术原理与应用教材配套学习指南网页二维码

扫一扫手机访问本主页

观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频

版权声明:本站所有教学资源有版权,请勿用于商业用途。

“学习指南”的用途】读者在使用林子雨编著《大数据技术原理与应用》教材时,只看教材,只能较好学习完成理论层面的内容,由于教材撰写必须本着精练的原则,无法对技术层面的操作细节面面俱到,因此,一些具体大数据技术的实践操作,如果只有教材,是无法顺利完成的。为了让读者能够顺利完成教材上相关大数据技术的上机实践,因此,厦门大学数据库实验室制作了与教材各个章节配套的学习指南,指南中会对如何实践相关大数据技术进行详细的说明。

“学习指南”使用方法】本主页的学习指南内容,主要分为“章节配套学习指南”和“章节配套专题博客”两大类,读者在学习完《大数据技术原理与应用》教材某个章节的内容后,应当首先阅读下面的“章节配套学习指南”,然后,再去阅读“章节配套专题博客”,在博客查缺补漏(因为,“章节配套专题博客”里面的内容,有些已经被包含到了“章节配套学习指南”中了)。

(一)章节配套大数据软件安装和编程实践指南

教材部分章节只有理论,不需要上机实践,因此,不需要学习指南。下面针对一些包含上机实践的章节给出学习指南。安装过程需要用到的所有软件,可以点击这里从百度云盘下载(提取码:99bg)。

(备注:如果你是苹果MacOS用户,请不要访问下面指南内容,而是直接访问专门面向MacOS系统撰写的指南,点击这里访问

(备注:如果你是阿里云的云服务器ECS用户,也可以在云端搭建大数据实验环境,点击这里阅读云端大数据环境搭建指南

大数据软件安装和编程实践指南(在本地电脑安装,适合绝大多数学习者)
大数据技术原理与应用(第2版) 第二章 大数据处理架构Hadoop  学习指南 查看
大数据技术原理与应用(第2版) 第三章 分布式文件系统HDFS  学习指南 查看
大数据技术原理与应用(第2版) 第四章 分布式数据库HBase  学习指南 查看
大数据技术原理与应用(第2版) 第五章 NoSQL数据库 查看
大数据技术原理与应用(第2版) 第六章 云数据库 学习指南 查看
大数据技术原理与应用(第2版) 第七章 MapReduce  学习指南 查看
大数据技术原理与应用(第2版) 第九章 Spark  学习指南 查看
大数据技术原理与应用(第2版) 第十章 流计算  学习指南 查看
大数据技术原理与应用(第2版) 第十一章 图计算  学习指南 查看
大数据技术原理与应用(第2版) 第十二章 数据可视化 学习指南 查看
大数据技术原理与应用(不在教材中的扩展内容) 基于Hadoop的数据仓库Hive 学习指南 查看

以本网页编程指南为基础撰写的《大数据基础编程、实验和案例教程》(教材官网)

已经于2017年8月出版,并在京东、当当等网店销售

(二)章节配套专题博客

章节配套专题博客,是为了学习某个具体的技术专题而撰写的,每篇博客都是学习某个具体技术。

第1章 大数据概述

本章都是概念性知识,不需要上机实践,所以,没有配套博客。

第2章 大数据处理架构Hadoop

【教程编号】章节配套专题博客2-1

【教程名称】在Windows系统下安装Linux虚拟机

【访问地址】查看

【教程内容】Hadoop和NoSQL数据库的学习,大多需要Linux环境。搭建Linux环境可以通过两种方式:(1)在电脑上安装双操作系统,即同时安装Linux和Windows操作系统,在电脑启动的时候,可以选择进入Linux系统;(2)在安装好Windows操作系统的电脑上,在开机进入Windows操作系统以后,安装Linux虚拟机,即在Windows运行环境下虚拟出一个Linux运行环境。本教程介绍如何在Windows系统下安装Linux虚拟机,描述了在Windows操作系统下使用开源虚拟机软件VirtualBox安装CentOS6.4(Linux的一个发行版)的教程,读者也可以使用其他虚拟机VMware Workstation安装。

需要指出的是,如果读者采用双系统方式安装Linux(而不是安装Linux虚拟机),建议可以参考“百度经验”中的文章,具体如下:

第一步:制定U盘启动安装

第二步:双系统安装

【教程编号】章节配套专题博客2-2

【教程名称】Hadoop安装教程_单机/伪分布式配置(Ubuntu14.04)

【访问地址】查看

【教程内容】注意:Linux有不同的发行版,主要有Ubuntu和CentOS等。建议采用CentOS。本教程采用Ubuntu14.04(Linux的一个发行版)。(单机/伪分布式安装,采用Hadoop2.6.0/Ubuntu14.04)当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop 2,包括Hadoop 2.6.0, Hadoop 2.4.1等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些Linux的知识,以后出现问题时才能自行解决。

【教程编号】章节配套专题博客2-3

【教程名称】Hadoop安装教程_单机/伪分布式配置(CentOS6.4)

【访问地址】查看

【教程内容】注意:Linux有不同的发行版,主要有Ubuntu和CentOS等。建议采用CentOS。本教程采用CentOS6.4(Linux的一个发行版)。(单机/伪分布式安装,采用Hadoop2.6.0/CentOS6.4)当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop 2,包括Hadoop 2.6.0, Hadoop 2.4.1等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些Linux的知识,以后出现问题时才能自行解决。

【教程编号】章节配套专题博客2-4

【教程名称】Hadoop集群安装配置教程

【访问地址】查看

【教程内容】(集群安装) 当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop 2,包括Hadoop 2.6.0, Hadoop 2.4.1等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些Linux的知识,以后出现问题时才能自行解决。

【教程编号】章节配套专题博客2-5

【教程名称】Hadoop 2.4.1单机版 自定义实现类以及编译运行

【访问地址】查看

【教程内容】已配置好hadoop2.4.1开发环境。由于之前运行的都是Hadoop自带的实例,但是对于个人学习而言,肯定是要自己编写实现类以及编译运行实现类,因此博主就撰写了这篇文章,希望对学习hadoop的同道中人有所帮助。

第3章 Hadoop分布式文件系统

本章暂无章节配套专题博客。

第4章 分布式数据库HBase

【教程编号】章节配套专题博客4-1

【教程名称】HBase的安装与运行

【访问地址】查看

【教程内容】HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。本教程介绍HBase的基本安装和使用方法。本教程运行环境是在Ubuntu-64位系统下,HBase版本为hbase-0.94.27。

第5章 NoSQL数据库

【教程编号】章节配套专题博客5-1

【教程名称】MongoDB简易安装和操作教程

【访问地址】查看

【教程内容】文档数据库MongoDB 是目前在IT行业非常流行的一种非关系型数据库(NoSQL),本教程为简易教程,将指导大家如何安装和使用MongoDB。

【教程编号】章节配套专题博客5-2

【教程名称】Redis安装与运行

【访问地址】查看

【教程内容】Redis是一个key-value存储系统,即键值对非关系型数据库,和Memcached类似,目前正在被越来越多的互联网公司采用。本教程只是简易的教程,指导大家如何安装运行Redis以及简单地操作Redis。

第6章 云数据库

本章暂无章节配套专题博客。

第7章 MapReduce

【教程编号】章节配套专题博客7-1

【教程名称】使用命令行编译打包运行自己的MapReduce程序

【访问地址】查看

【教程内容】网上的MapReduce WordCount教程对于如何编译WordCount.java几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java,但较新的 2.X 版本中,已经没有 hadoop-core*.jar 这个文件,因此编辑和打包自己的MapReduce程序与旧版本有所不同。本文以 Hadoop 2.4.1 环境下的WordCount实例来介绍 2.x 版本中如何编辑自己的MapReduce程序。

【教程编号】章节配套专题博客7-2

【教程名称】使用Eclipse编译运行MapReduce程序

【访问地址】 查看

【教程内容】上篇介绍了使用命令行编译打包运行自己的MapReduce程序,使用 Eclipse 更加方便。要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-plugin,可使用 Github 上的 hadoop2x-eclipse-plugin,测试环境:Ubuntu 14.04、Hadoop 2.6.0、Eclipse 3.8。本教程在 Hadoop 2.6.0 下验证通过,理论上适合于任何原生 Hadoop 2 版本,如 Hadoop 2.4.1 也可以。

第8章 流计算

【教程编号】章节配套专题博客8-1

【教程名称】Storm安装教程

【访问地址】查看

【教程内容】本教程介绍了如何在单机上安装、运行Storm。本教程基于CentOS 6.4 系统,使用的Storm版本为0.9.6.

【教程编号】章节配套专题博客8-2

【教程名称】Maven编译代码

【访问地址】查看

【教程内容】Storm官方提供了入门代码(Stormstarter),即“Storm安装教程”中运行的实例(jar是编译后的)。本教程即介绍如何使用Maven来编译代码,以运行于 Storm中。

第9章 图计算

【教程编号】章节配套专题博客9-1

【教程名称】图计算框架Hama的基础操作实践

【访问地址】查看

【教程内容】Hama是Google Pregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。简单说,Hama是在HDFS上实现的BSP(Bulk Synchronous Parallel)计算框架,弥补Hadoop在计算能力上的不足。本教程主要介绍hama的安装配置以及用hama解决一些算法问题。

第10章 数据可视化

【教程编号】章节配套专题博客10-1

【教程名称】D3可视化库使用指南

【访问地址】查看

【教程内容】D3 的全称是(Data-Driven Documents),顾名思义可以知道是一个被数据驱动的文档。听名字有点抽象,说简单一点,其实就是一个 JavaScript 的函数库,使用它主要是用来做数据可视化的。本教程介绍如何安装和使用D3可视化库,完成基本的可视化图形的绘制。

【教程编号】章节配套专题博客10-2

【教程名称】可视化工具Tableau简易教程

【访问地址】查看

【教程内容】在目前的互联网界,大数据是非常火的一块领域,并且已经渗入到生活的方方面面。然而面对庞大的数据,如果只是用表格或者文本来显示数据,那么数据将不易阅读,而且很难看出数据间的关系。Tableau是一款数据可视化工具,托放式的操作,精美的图表,让这款软件在大数据可视化方面大放光彩。本教程是Tableau简易教程,向大家介绍Tableau以及指导大家简易操作Tableau。

【教程编号】章节配套专题博客10-3

【教程名称】Easel.ly信息图制作实践

【访问地址】查看

【教程内容】Easel.ly 是现下非常流行的信息图制作软件之一,其具有界面简洁、操作简a便、图片精美等特点。用户只需要登录Easel.ly官方网站即可开始进行信息图制作。本文主要介绍Easel.ly 的基本使用方法。

【教程编号】章节配套专题博客10-4

【教程名称】数据可视化工具魔镜和基于ECharts可视化库的图表制作

【访问地址】查看

【教程内容】本教程为数据可视化的中级教程,首先介绍魔镜这款数据可视化工具,用户只需要拖拽控件即可生成绚丽的图形,对于没有编辑基础的文科生,上班族来说,也是极易上手。魔镜这款软件有分为云平台和企业版,如果要制作高级图形,如人口迁徙图,热度图等等就需要用到企业版,而企业版需要收费。所以本篇教程,还介绍了制作图形图像的代码库ECharts,可以编程实现简单的图形和高级图形。ECharts免费使用,而且接口简单,对于有一点编程基础的用户,可以很容易上手。

第11章 大数据在互联网领域的应用

【教程编号】章节配套专题博客11-1

【教程名称】大数据推荐系统的编程实现

【访问地址】 下载

【教程内容】本教程将编程实现基于“阿里巴巴大数据竞赛(天猫推荐算法大挑战)”的推荐系统。阿里巴巴集团主办的天池大数据竞赛(http://tianchi.aliyun.com/),是面向全球科研工作者的高端算法竞赛。通过开放海量数据和分布式计算资源,大赛让所有参与者有机会运用其设计的算法解决各类社会问题或业务问题。

备注:第12章和第13章是关于大数据的应用,属于学生自学内容,都是概念性介绍,不需要上机练习,因此,不需要学习指南。