大数据技术基础课程

《大数据技术基础》课程介绍

主讲教师:林子雨(ziyulin@xmu.edu.cn, http:// dblab.xmu.edu.cn/linziyu)

(本网页内容是2013年老旧内容,不要使用,建议点击这里直接访问《大数据技术原理与应用(第3版)》教材官网获取各种最新的大数据教学资料)


课程信息 | 授课班级 | 教材讲义下载


由林子雨编著的《大数据技术原理与应用》教材已经由人民邮电出版社出版发行,京东、当当网畅销书籍

大数据技术原理与应用推广链接图片

点击这里访问《大数据技术原理与应用》教材官网

大数据课程教师服务站LOGO1

(点击这里访问大数据课程教师服务站)

大数据课程公益项目横幅1

欢迎访问厦门大学辅助国内高校开设大数据课程公益项目主页

大数据课程学生服务站LOGO

点击这里访问大数据课程学生服务站

大数据公开课全国巡讲计划LOGO-2015-Oct-06

点击这里访问大数据公开课全国巡讲计划

大数据技术,厦门大学,林子雨

课程信息

课程名称 课程类型 授课对象 学时 授课难度 授课地点
大数据技术基础 研究生选修课 信息科学与技术学院研究生 48 厦大海韵园
1.《大数据技术基础》讨论要点介绍大数据技术相关基础知识,包括大数据概述、大数据处理模型、大数据关键技术、大数据时代面临的新挑战、NoSQL数据库、云数据库、Google Spanner、Hadoop、HDFS、HBase、MapReduce、Zookeeper、流计算、图计算和Google Dremel等。2. 学习安排□授课  □读参考书  □检索相关的研究论文  □相关的自我上机操作和编程  □大数据领域专题报告  □期中作业  □期末考试3. 参考书籍[1] 陆嘉恒. Hadoop实战. 机械工业出版社. 2011年.[2] 曾大聃, 周傲英(译). Hadoop权威指南中文版. 清华大学出版社. 2010年.[3] 迪米达克 (Nick Dimiduk),卡拉纳 (Amandeep Khurana),谢磊. HBase实战中文版.人民邮电出版社; 第1版 (2013年9月1日)4. 课程教材《大数据技术基础》课程教材,由林子雨老师自己亲自编写,本课程网页提供教材PDF和讲义PPT的下载。《大数据技术基础》(林子雨 编写)是中国高校第一本大数据技术方面的教程(免费共享教材PDF版本),可以作为计算机专业研究生《大数据技术基础》课程的参考辅助教材,由林子雨对大量网络资料和相关书籍内容进行阅读整理后编写而成, 深入浅出全面介绍大数据相关知识,全书内容包括大数据概述、大数据关键技术与挑战、NoSQL数据库、云数据库、Google Spanner、Hadoop、HDFS、HBase、MapReduce、Zookeeper、流计算、图计算和Google Dremel等。《大数据技术原理与应用——概念、存储、处理、分析与应用》是由林子雨在《大数据技术基础》(免费共享教材PDF版本)的基础上,重新整理编写的高校教材,前者与后者相比,在知识体系上更加全面,知识点陈述更加准确,图文编辑更加美观。《大数据技术原理与应用——概念、存储、处理、分析与应用》已经于2015年6月由人民邮电出版社正式出版发行,并可免费下载与教材配套的讲义(可编辑的PPT格式),点击这里访问教材主页

授课班级

班级 人数 合影 相册 结课仪式 班级主页 备注
2013 59 查看 查看 访问该班级主页 该课程开设后的第一个班级

备注:林子雨老师从2013年9月开始主讲《大数据技术基础》课程,之前林子雨主讲的研究生课程《分布式数据库技术》今后不再开课,如果需要查看历史班级授课情况,请访问《分布式数据库技术》课程网页

教材讲义下载

前言

本教程由厦门大学计算机科学系教师林子雨编著,可以作为计算机专业研究生课程《大数据技术基础》的辅助教材。

本教程共13章,内容包括:第1章 大数据概述、第2章 大数据关键技术与挑战、第3章 Hadoop、第4章 MapReduce、第5章 HDFS、第6章 Zookeeper、第7章 HBase、第8章 流计算、第9章 图计算、第10章 NoSQL数据库、第11章 云数据库、第12章 Google Spanner和第13章 Google Dremel。

本教程由林子雨老师团队合力完成,编写工作分工如下:林子雨负责编写第1章、第2章、第3章、第4章、第5章、第6章、第7章、第10章、第11章和第12章;蔡珉星负责编写第8章,李雨倩负责编写第9章,叶林宝负责编写第13章。

本教程是林子雨通过大量阅读、收集、整理各种资料后精心制作的学习材料,与广大数据库爱好者共享。教程中的内容大部分来自网络资料和书籍,一部分是自己撰写。对于自写内容,林子雨老师拥有著作权。感谢林子雨老师团队的多位同学的大量协助工作,包括厦门大学计算机科学系2011级研究生赖明星同学、2012级研究生刘颖杰和叶林宝同学、2013级研究生蔡珉星、李雨倩同学,他们为本教程的撰写做了大量积极的贡献,包括资料收集、整理、讲义PPT制作等。

本教程PDF文档及其全套教学PPT可以通过网络免费下载和使用(下载地址:https://dblab.xmu.edu.cn/post/1089)。教程中可能存在一些问题,欢迎读者提出宝贵意见和建议!

本教程已经应用于厦门大学计算机科学系研究生课程《大数据技术基础》,欢迎访问2013班级网站https://dblab.xmu.edu.cn/post/1090。

林子雨的E-mail是:ziyulin@xmu.edu.cn

林子雨的个人主页是:http://www.cs.xmu.edu.cn/linziyu。

林子雨于厦门大学海韵园

2013年9月

整本教材下载

由林子雨在《大数据技术基础》这本书基础上编著的教材《大数据技术原理与应用——概念、存储、处理、分析与应用》已经于2015年6月由人民邮电出版社正式出版发行,提供全套教材讲义下载(可编辑的PPT格式)

点击这里下载《大数据技术基础》整本教材PDF,一个PDF文件包含所有章节内容

本教材已经应用于厦大计算机系研究生教学,欢迎点击这里访问大数据技术基础2013班级主页

分章节下载

章节 标题 内容摘要 编写 校对 教材PDF 讲义PDF
第1章 大数据概述 大数据概念、大数据的产生和应用、大数据作用、大数据与大规模数据、海量数据的差别、典型的大数据应用实例、从数据库到大数据、大数据与云计算、大数据与物联网、对大数据的错误认识、大数据技术、大数据存储和管理技术、大数据生态系统 林子雨 林子雨 下载 下载
第2章 大数据关键技术与挑战 大数据处理基本流程、大数据处理模型、大数据关键技术(文件系统、数据库系统、索引和查询技术、数据分析技术)、大数据处理工具、大数据时代面临的挑战 (大数据集成、大数据分析、大数据隐私问题、大数据能耗问题、大数据处理与硬件的协同、大数据管理易用性问题、性能测试基准) 林子雨 林子雨 下载 下载
第3章 Hadoop Hadoop概述、Hadoop发展简史、Hadoop的功能与作用、为什么不用关系型数据库管理系统、 Hadoop的优点、Hadoop的应用现状和发展趋势、Hadoop项目及其结构、Hadoop的体系结构、Hadoop与分布式开发、Hadoop应 用案例、Hadoop平台上的海量数据排序 林子雨 林子雨 下载 下载
第4章 MapReduce 分布式并行编程:编程方式的变革、MapReduce模型概述、Map和Reduce函数、MapReduce工作流程、并行计算的实现、实例分析:WordCount、新MapReduce框架Yarn 林子雨 林子雨 下载 下载
第5章 HDFS HDFS的假设与目标、HDFS的相关概念、HDFS体系结构、HDFS命名空间、HDFS存储原理、通讯协议、数据错误与异常、从HDFS看分布式文件系统的设计需求 林子雨 林子雨 下载 下载
第6章 Zookeeper Zookeeper简介(系统架构、设计目的和特点)、Zookeeper的工作原理(选主流程、同步流程、工作流程)、Zookeeper的数据模型、Zookeeper的典型应用场景(统一命名服务、配置管理、集群管理、共享锁、队列管理) 林子雨 林子雨 下载 下载
第7章 HBase HBase简介、HBase使用场景和成功案例、HBase和传统关系数据库的对比分析、HBase访问接口、HBase数据模型、HBase系统架构、HBase存储格式、读写数据、MapReduce on HBase 林子雨 林子雨 下载 下载
第8章 流计算 流计算概述、流计算处理流程、流计算应用、流计算框架Storm 蔡珉星 林子雨 下载 下载
第9章 图计算 图计算简介、Google Pregel简介、Google Pregel图计算模型、Pregel的C++ API、Pregel模型的基本体系结构、Pregel模型的应用实例、改进的图计算模型 李雨倩 林子雨 下载 下载
第10章 NoSQL数据库 NoSQL简介、NoSQL现状、为什么要使用NoSQL数据库、NoSQL数据库的特点、NoSQL的五大挑战、对NoSQL的质疑、NoSQL的三大基石、NoSQL数据库与关系数据库的比较、典型的NoSQL数据库分类、NoSQL数据库开源软件 林子雨 林子雨 下载 下载
第11章 云数据库 云数据库概述、云数据库的特性、云数据库是海量存储需求的必然选择、云数据库与传统的分布式数据库、云数据库的影响、云数据库产品 、数据模型、数据访问方法、编程模型 林子雨 林子雨 下载 下载
第12章 Google Spanner Spanner背景、与BigTable、Megastore的对比、Spanner的功能、体系结构、Spanserver、Directory、数据模型、TrueTime、Spanner的并发控制 林子雨 林子雨 下载 下载
第13章 Google Dremel Dremel概述、Dremel的数据模型、嵌套列式存储、查询语言、查询的执行 叶林宝 林子雨 下载 下载

林子雨老师教材编写团队

林子雨 叶林宝 蔡珉星
林子雨
助理教授
叶林宝
2012级研究生
蔡珉星
2013级研究生
李雨倩
2013级研究生