版权声明：本站对站内所有资源拥有版权，严禁用于商业用途，侵权必究

《数据采集与预处理》

面向大数据专业的教材

全国高校知名大数据教师精品力作

作者：厦门大学计算机科学系林子雨博士/副教授
E-mail:ziyulin@xmu.edu.cn

出版社：人民邮电出版社 2022年2月第1版

ISBN：978-7-115-58063-4 定价：59.80 元

教材已经在京东、当当等各大网店上市销售

提供讲义PPT、教学大纲、教案、慕课视频、实验答案、软件、代码、课程思政案例

扫一扫访问本网页

教材采用Windows系统，同时这里也提供了在Linux系统中运行本教材中实验的指南

【教材简介】

本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章，内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在网络数据采集、Kafka、Flume、Kettle、pandas等重要章节安排了丰富的实践操作，以便读者更好地学习和掌握数据采集与预处理的关键技术。

【作者介绍】

林子雨（1978－）（个人主页），男，博士（毕业于北京大学），国内高校知名大数据教师，厦门大学计算机科学系副教授，厦门大学云计算与大数据研究中心创始成员，厦门大学数据库实验室负责人，中国计算机学会数据库专委会委员，中国计算机学会信息系统专委会委员，中国高校首个“数字教师”提出者和建设者。2013年开始在厦门大学开设大数据课程，建设了国内高校首个大数据课程公共服务平台，平台累计网络访问量超过1500万次，成为全国高校大数据教学知名品牌，并荣获“2018年福建省教学成果二等奖”，主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”。

【本书特色】

1.容易开展上机实践操作。本书采用Windows系统搭建实验环境，以Python作为编程语言，入门门槛低，很容易完成书上的各种上机实验。同时，也提供了在Linux系统中开展实验的详细指南。

2.包含丰富的实验案例。数据采集与预处理是一门注重培养学生动手能力的课程，为了提高学生的动手能力，全书提供了丰富的实验案例。

3.提供丰富的教学配套资源。为了帮助高校一线教师更好地开展教学工作，本书配套了丰富的教学资源，如讲义PPT、教学大纲、教案、实验手册以及在线自主学习平台等。

【教材交流群】

如果您是高校教师，您可以加入QQ群（群号：916443807，需要提供高校和姓名进行验证），在群中可以交流各种大数据教学问题。

【教案】

提供了与教材配套了教案，点击这里下载教案。

【慕课视频】

录制了与教材配套的800分钟慕课视频（由林子雨和夏小云老师共同主讲），欢迎访问网易云课堂观看视频（点击这里观看视频）。

【讲义PPT】

下面讲义PPT是2022年1月朴素版本。如果要获取2022年12月制作的精美版本PPT，请到下面的【下载专区】栏目中下载。

章节	讲义PPT（PDF格式）	讲义PPT（PPT格式）
第0章课程介绍	下载	下载
第1章概述	下载	下载
第2章大数据实验环境搭建	下载	下载
第3章网络数据采集	下载	下载
第4章分布式消息系统Kafka	下载	下载
第5章日志采集系统Flume	下载	下载
第6章数据仓库中的数据集成	下载	下载
第7章 ETL工具Kettle	下载	下载
第8章使用pandas进行数据清洗	下载	下载

【下载专区】

“下载专区”提供了与教材配套的各种资源的下载，包括讲义PPT、教学大纲、教案、软件、代码、数据集、实验答案等。这些资源（除软件外）的版权归作者林子雨所有，侵权必究。高校教师可以免费下载这些资源用于教学用途。

“下载专区”的百度网盘链接是：

链接：https://pan.baidu.com/s/1gbs4rXYZyaiod1cUz3F-gg
提取码：ziyu

【500道题库】

2023年12月，制作了与教材配套的500道题库，点击这里获取题库。

【补充实验操作】

补充一些教材中没有写出来的上机操作。

章节	实验操作名称	查看
第2.3节MySQL数据库的安装与使用	在Windows10操作系统中安装MySQL8.0.30数据库	查看
第2章大数据实验环境搭建	Win10如何获得管理员权限	查看
第2章大数据实验环境搭建	在Windows10中安装Redis7.0.8	查看
第3章网络网络采集	爬取厦门大学计算机系网站首页新闻内容	查看
第3章网络网络采集	编写网络爬虫采集百度热搜榜网页	查看
第3章网络网络采集	采集网页数据保存到MongoDB数据库中	查看
第3章网络网络采集	采集网页数据保存到Redis数据库中	查看
第3章网络网络采集	编写爬虫爬取图书网站数据	查看
第4章分布式消息系统Kafka	Kafka采集数据保存到MongoDB中	查看
第4章分布式消息系统Kafka	在Windows10中使用Kafka采集数据保存到Redis数据库中	查看
第5章日志采集系统Flume	Flume同步MySQL数据到Kafka	查看
第5章日志采集系统Flume	Flume同步文件数据到Kafka	查看
第5章日志采集系统Flume	Flume多数据源应用实例	查看

【在Linux系统中运行教材中的实验】

《数据采集与预处理》教材中的所有实验是在Windows操作系统中完成的，但是，有些高校教师在使用教材过程中反馈了意见，现在有一些学生使用苹果电脑，不是Windows系统，无法顺利开展实验，因此，建议我们团队开发面向Linux系统的实验指南。为了满足这类需求，特制作本指南。点击这里查看“《数据采集与预处理》教材在Linux系统中的实验指南”。

【学时建议】

建议安排28学时，这28学时仅仅包括理论授课，也就是老师在课堂讲授的学时，不包括学生上机实验学时，老师可以根据需要再额外安排上机实验学时。

章节	28学时
第1章概述	2
第2章实验环境搭建	4
第3章网络数据采集	6
第4章分布式消息系统Kafka	2
第5章日志采集系统Flume	2
第6章数据仓库中的数据集成	2
第7章 ETL工具Kettle	4
第8章使用pandas进行数据清洗	6

【教材目录】

第1章概述

1.1 数据

数据的概念、数据类型、数据组织形式

数据的价值、数据爆炸

1.2 数据分析过程

1.3 数据采集与预处理的任务

1.4 数据采集

数据采集概念、数据采集的三大要点、数据采集的数据源、数据采集方法

1.5 数据清洗

数据清洗的应用领域、数据清洗的实现方式、数据清洗的内容

数据清洗的注意事项、数据清洗的基本流程、数据清洗的评价标准

1.6 数据集成

1.7 数据转换

数据转换策略、平滑处理、规范化处理

1.8 数据脱敏

第2章大数据实验环境搭建

2.1 Python的安装和使用

Python简介、Python的安装、Python的基本使用方法、Python基础语法知识

Python第三方模块的安装

2.2 JDK的安装

2.3 MySQL数据库的安装和使用

关系数据库、关系数据库标准语言SQL、安装MySQL、MySQL数据库的使用方法

使用Python操作MySQL数据库（连接数据库、创建表、插入数据、修改数据、删除数据）

2.4 Hadoop的安装和使用

Hadoop简介、分布式文件系统HDFS、Hadoop的安装、HDFS的基本使用方法

第3章网络数据采集

3.1 网络爬虫概述

什么是网络爬虫、网络爬虫的类型、反爬机制

3.2 网页基础知识

超文本和HTML、HTTP

3.3 用Python实现HTTP请求

urllib模块、urllib3模块、requests模块

3.4 定制requests

传递URL参数、定制请求头、网络超时

3.5 解析网页

BeautifulSoup简介、BeautifulSoup四大对象、遍历文档树、搜索文档树CSS选择器

3.6 综合实例

采集网页数据保存到文本文件、采集网页数据保存到MySQL数据库

3.7 Scrapy爬虫

Scrapy爬虫概述、XPath语言、Scrapy爬虫实例

第4章分布式消息系统Kafka

4.1 Kafka简介

Kafka的特性、Kafka的应用场景、Kafka的消息传递模式

4.2 Kafka在大数据生态系统中的作用

4.3 Kafka与Flume的区别与联系

4.4 Kafka相关概念

4.5 Kafka的安装和使用

4.6 使用Python操作Kafka

4.7 Kafka与MySQL的组合使用

第5章日志采集系统Flume

5.1 Flume简介

5.2 Flume的安装和使用

5.3 Flume和Kafka的组合使用

5.4 采集日志文件到HDFS

采集目录到HDFS、采集文件到HDFS

5.5 采集MySQL数据到HDFS

第6章数据仓库中的数据集成

6.1 数据仓库概念

传统的数据仓库、实时主动数据仓库

6.2 数据集成

数据集成方式、数据分发方式、数据集成技术

6.3 ETL

ETL简介、ETL基本模块、ETL模式、ETL工具

6.4 CDC

特性、组成、具体应用场景、需要考虑的问题

第7章 ETL工具Kettle

7.1 Kettle的基本概念

7.2 Kettle的基本功能

7.3 安装Kettle

7.4 数据抽取

把文本文件导入到Excel文件中、把文本文件导入MySQL数据库中

把Excel文件导入到MySQL数据库中

7.5 数据清洗与转换

使用Kettle实现数据排序、在Kettle中用正则表达式清洗数据

使用Kettle去除缺失值、使用Kettle转化MySQL数据库中的数据

7.6 数据加载

把本地文件加载到HDFS中、把HDFS文件加载到MySQL数据库中

第8章使用pandas进行数据清洗

8.1 NumPy的基本使用方法

数组创建、数组索引和切片、数组运算

8.2 pandas数据结构

Series、DataFrame、索引对象

8.3 基本功能

重新索引、丢弃指定轴上的项、索引、选取和过滤

算术运算、DataFrame和Series之间的运算、函数应用和映射

排序和排名、分组、shape函数、info()函数、cut()函数

8.4 汇总和描述统计

与描述统计相关的函数、唯一值、值计数以及成员资格

8.5 处理缺失数据

检查缺失值、清理/填充缺失值、丢失缺少的值

8.6 综合实例