林子雨编著《大数据导论》,人民邮电出版社,2020年8月第1版。
本教材用于高校大数据专业的导论课。
目 录
第1章 大数据概述…. 1
1.1 数据… 1
1.1.1 数据的概念… 1
1.1.2 数据类型… 2
1.1.3 数据组织形式… 2
1.1.4 数据的使用… 3
1.1.5 数据的价值… 4
1.1.6 数据爆炸… 4
1.2 大数据时代… 5
1.2.1 第三次信息化浪潮… 5
1.2.2 信息科技为大数据时代提供技术支撑… 5
1.2.3 数据产生方式的变革促成大数据时代的来临… 7
1.3 大数据的发展历程… 9
1.4 世界各国的大数据发展战略… 10
1.4.1 美国… 11
1.4.2 英国… 11
1.4.3 法国… 11
1.4.4 韩国… 12
1.4.5 日本… 12
1.4.6 中国… 12
1.5 大数据的概念… 13
1.5.1 数据量大… 13
1.5.2 数据类型繁多… 14
1.5.3 处理速度快… 15
1.5.4 价值密度低… 16
1.6 大数据的影响… 16
1.6.1 大数据对科学研究的影响… 16
1.6.2 大数据对社会发展的影响… 18
1.6.3 大数据对就业市场的影响… 19
1.6.4 大数据对人才培养的影响… 19
1.7 大数据的应用… 20
1.8 大数据产业… 22
1.9 高校大数据专业… 23
1.9.1 大数据专业的人才培养目标… 24
1.9.2 毕业生就业岗位… 24
1.9.3 大数据专业知识体系… 25
1.9.4 大数据专业课程体系… 25
1.9.5 大数据专业的编程语言… 26
1.10 本章小结… 28
1.11 习题… 29
第2章 大数据与其他新兴技术的关系…. 30
2.1 云计算… 30
2.1.1 云计算的概念… 30
2.1.2 云计算的服务模式和类型… 33
2.1.3 云计算数据中心… 34
2.1.4 云计算的应用… 35
2.1.5 云计算产业… 35
2.2 物联网… 36
2.2.1 物联网的概念… 36
2.2.2 物联网的关键技术… 37
2.2.3 物联网的应用… 39
2.2.4 物联网产业链… 40
2.3 大数据与云计算、物联网的关系… 40
2.4 大数据与人工智能… 41
2.4.1 人工智能的概念… 42
2.4.2 人工智能的关键技术… 42
2.4.3 人工智能的应用… 47
2.4.4 人工智能产业… 51
2.4.5 大数据与人工智能的关系… 54
2.5 大数据与区块链… 55
2.5.1 从比特币说起… 55
2.5.2 区块链的原理… 56
2.5.3 区块链的定义… 61
2.5.4 区块链的应用… 61
2.5.5 大数据与区块链的关系… 63
2.6 本章小结… 64
2.7 习题… 64
第3章 大数据基础知识…. 66
3.1 大数据安全… 66
3.1.1 传统数据安全… 67
3.1.2 大数据安全与传统数据安全的不同… 67
3.1.3 大数据安全问题… 68
3.1.4 典型案例… 71
3.2 大数据思维… 74
3.2.1 传统的思维方式… 75
3.2.2 大数据时代需要新的思维方式… 75
3.2.3 大数据思维方式… 76
3.2.4 运用大数据思维的具体实例… 80
3.3 大数据伦理… 87
3.3.1 大数据伦理的概念… 87
3.3.2 大数据伦理典型案例… 88
3.3.3 大数据的伦理问题… 90
3.4 数据共享… 94
3.4.1 数据孤岛问题… 95
3.4.2 数据孤岛问题产生的原因… 96
3.4.3 消除数据孤岛的重要意义… 96
3.4.4 实现数据共享所面临的挑战… 97
3.4.5 推进数据共享开放的举措… 98
3.4.6 数据共享案例… 100
3.5 数据开放… 103
3.5.1 政府开放数据的理论基础… 104
3.5.2 政府信息公开与政府数据开放的联系与区别… 106
3.5.3 政府数据开放的重要意义… 107
3.6 大数据交易… 109
3.6.1 大数据交易概述… 109
3.6.2 大数据交易发展现状… 110
3.6.3 大数据交易平台… 111
3.7 本章小结… 115
3.8 习题… 115
第4章 大数据应用…. 117
4.1 大数据在互联网领域的应用… 117
4.1.1 什么是推荐系统… 117
4.1.2 长尾理论… 118
4.1.3 推荐方法… 119
4.1.4 推荐系统模型… 119
4.1.5 推荐系统的应用… 120
4.2 大数据在生物医学领域的应用… 121
4.2.1 流行病预测… 121
4.2.2 智慧医疗… 123
4.2.3 生物信息学… 124
4.2.4 案例:基于大数据的综合健康服务平台… 125
4.3 大数据在物流领域的应用… 129
4.3.1 智能物流的概念… 129
4.3.2 智能物流的作用… 130
4.3.3 智能物流的应用… 130
4.3.4 大数据是智能物流的关键… 130
4.3.5 中国智能物流骨干网—菜鸟… 131
4.4 大数据在城市管理领域的应用… 134
4.4.1 智能交通… 134
4.4.2 环保监测… 135
4.4.3 城市规划… 136
4.4.4 安防… 136
4.4.5 疫情防控… 137
4.5 大数据在金融领域的应用… 138
4.5.1 高频交易… 138
4.5.2 市场情绪分析… 139
4.5.3 信贷风险分析… 139
4.5.4 大数据征信… 140
4.6 大数据在汽车领域的应用… 142
4.7 大数据在零售领域的应用… 143
4.7.1 发现关联购买行为… 143
4.7.2 客户群体细分… 144
4.7.3 供应链管理… 145
4.8 大数据在餐饮领域的应用… 145
4.8.1 餐饮领域拥抱大数据… 145
4.8.2 餐饮O2O.. 146
4.9 大数据在电信领域的应用… 147
4.10 大数据在能源领域的应用… 148
4.11 大数据在体育和娱乐领域的应用… 149
4.11.1 训练球队… 149
4.11.2 投拍影视作品… 150
4.11.3 预测比赛结果… 151
4.12 大数据在安全领域的应用… 152
4.12.1 大数据与国家安全… 152
4.12.2 应用大数据技术防御网络攻击… 152
4.12.3 警察应用大数据工具预防犯罪… 153
4.13 大数据在政府领域的应用… 154
4.14 大数据在日常生活中的应用… 155
4.15 本章小结… 156
4.16 习题… 157
第5章 数据采集与预处理…. 158
5.1 数据采集… 158
5.1.1 数据采集的概念… 158
5.1.2 数据采集的三大要点… 159
5.1.3 数据采集的数据源… 159
5.1.4 数据采集方法… 160
5.1.5 网络爬虫… 162
5.2 数据清洗… 166
5.2.1 数据清洗的内容… 167
5.2.2 数据清洗的注意事项… 168
5.3 数据转换… 168
5.3.1 数据转换策略… 168
5.3.2 平滑处理… 169
5.3.3 规范化处理… 171
5.4 数据脱敏… 172
5.4.1 数据脱敏原则… 172
5.4.2 数据脱敏方法… 173
5.5 本章小结… 173
5.6 习题… 173
第6章 数据存储与管理…. 175
6.1 传统的数据存储与管理技术… 175
6.1.1 文件系统… 175
6.1.2 关系数据库… 175
6.1.3 数据仓库… 177
6.1.4 并行数据库… 178
6.2 大数据时代的数据存储与管理技术… 179
6.2.1 分布式文件系统… 179
6.2.2 NewSQL和NoSQL数据库… 179
6.2.3 云数据库… 181
6.3 大数据处理架构Hadoop. 182
6.3.1 Hadoop特性… 182
6.3.2 Hadoop生态系统… 183
6.4 分布式文件系统HDFS. 185
6.4.1 HDFS的设计目标… 186
6.4.2 HDFS体系结构… 187
6.5 NoSQL数据库… 187
6.5.1 键值数据库… 188
6.5.2 列族数据库… 189
6.5.3 文档数据库… 190
6.5.4 图数据库… 190
6.6 云数据库… 191
6.6.1 云数据库的概念… 191
6.6.2 云数据库的特性… 192
6.6.3 云数据库与其他数据库的关系… 193
6.6.4 代表性云数据库产品… 194
6.7 分布式数据库HBase. 194
6.7.1 从Bigtable说起… 195
6.7.2 HBase简介… 195
6.7.3 HBase数据模型… 196
6.7.4 HBase系统架构… 197
6.8 Google Spanner 198
6.9 本章小结… 199
6.10 习题… 199
第7章 数据处理与分析…. 201
7.1 数据处理与分析的概念… 201
7.1.1 数据分析与数据挖掘… 201
7.1.2 数据分析与数据处理… 202
7.1.3 大数据处理与分析… 202
7.2 机器学习和数据挖掘算法… 203
7.2.1 概述… 203
7.2.2 分类… 204
7.2.3 聚类… 204
7.2.4 回归分析… 205
7.2.5 关联规则… 206
7.2.6 协同过滤… 206
7.3 大数据处理与分析技术… 207
7.3.1 技术分类… 207
7.3.2 流计算… 209
7.3.3 图计算… 211
7.4 大数据处理与分析代表性产品… 212
7.4.1 分布式计算框架MapReduce. 213
7.4.2 数据仓库Hive. 214
7.4.3 数据仓库Impala. 216
7.4.4 基于内存的分布式计算框架Spark. 216
7.4.5 机器学习框架TensorFlowOnSpark. 232
7.4.6 流计算框架Storm… 233
7.4.7 流计算框架Flink. 235
7.4.8 大数据编程框架Beam… 237
7.4.9 查询分析系统Dremel 239
7.5 本章小结… 240
7.6 习题… 240
第8章 数据可视化…. 242
8.1 可视化概述… 242
8.1.1 什么是数据可视化… 242
8.1.2 可视化的发展历程… 243
8.1.3 可视化的重要作用… 243
8.2 可视化图表… 245
8.3 可视化工具… 246
8.3.1 入门级工具… 246
8.3.2 信息图表工具… 246
8.3.3 地图工具… 248
8.3.4 时间线工具… 249
8.3.5 高级分析工具… 250
8.4 可视化典型案例… 250
8.4.1 全球黑客活动… 250
8.4.2 互联网地图… 251
8.4.3 编程语言之间的影响力关系图… 252
8.4.4 世界国家健康与财富之间的关系… 252
8.4.5 3D可视化互联网地图App. 253
8.5 本章小结… 254
8.6 习题… 254
第9章 大数据分析综合案例…. 255
9.1 案例任务… 255
9.2 系统设计… 256
9.2.1 系统总体设计… 256
9.2.2 数据库设计… 256
9.2.3 系统网站设计… 257
9.2.4 算法设计… 258
9.3 技术选择… 261
9.4 系统实现… 262
9.5 案例所需知识和技能… 263
9.6 本章小结… 263
9.7 习题… 263
参考文献…. 264