中国大数据技术与产业发展白皮书2013

[请到本网页底部附件下载白皮书完整版PDF文档]

中国大数据技术与产业发展白皮书2013

中国计算机学会大数据专家委员会 2013年12月1日

序 言

近两年来,大数据浪潮以排山倒海之势席卷全球,既提供巨大的机遇,也带来一系列的挑战。为了推动大数据科学技术和产业的良性发展,中国计算机学会于2012 年6 月成立了“大数据专家委员会”,其宗旨是探讨大数据的核心科学与技术问题,推动大数据学科方向的建设与发展;构建面向大数据产学研用的学术交流、技术合作与数据共享平台,并对相关政府部门提供战略性的意见与建议。

在中国计算机学会大数据专家委员会精心组织下,花了大半年时间撰写了这本《中国大数据技术与产业发展白皮书(2013 年)》。中国计算机学会大数据专家委员会的110 位专家(不包括最近正在遴选的第三批专家委员)来自大学、科研单位、企业和政府部门,从事的专业涵盖计算机系统、通信、数据库和数据挖掘、大数据应用等各个不同的领域,白皮书的编写

集中了各个领域众多专家的知识和智慧,一定程度上反映了我国大数据学术界和产业界的共识。

组织撰写《中国大数据技术与产业发展白皮书》的目的在于为业界梳理大数据应用现状及发展趋势,为政府制定推动大数据产业发展的政策提供建议;同时,探讨大数据研究面临的科学问题和技术挑战,为研究机构和研究人员提供参考指南。白皮书包括六部分内容,第一章介绍大数据的发展背景,第二章阐述大数据典型应用领域的现状,第三章阐述大数据技术体系的发展现状,第四章讨论大数据IT 产业链与生态环境,第五章分析了大数据人才资源情况,第六章探讨大数据的发展趋势并提出相关建议。

大数据成为热点以后,众说纷纭。推动者认为是“上帝给中国崛起准备的礼物”;泼冷水者认为是又一场“泡沫”。实际上所谓大数据主要是干三件事:一件是提高“数据意识”,用已经掌握的技术大力推动数据产业,这方面主要是企业界要做的事。在企业看来,不管是大数据还是小数据,只要能给企业带来价值,就是好数据。对于数据意识薄弱的发展中国家,经过大数据浪潮的洗礼,提高对数据资源的掌控能力,无疑是一件好事。第二件事是解决现有计算机系统和软件不能对付急剧增长、种类繁多的数据(尤其是网络数据)这一挑战问题,研究各种采集、整理、存储、处理和呈现大数据的变革性技术。各国专家对大数据的定义大都是着眼于这一挑战,这主要是科技界(包括大企业的研发机构)要做的事。

介于这两者之间的第三件事是,推广近几年开始应用的不同于传统事务处理、传统数据库和小样本建模分析技术的大数据处理新方法,如深度学习、MapReduce 、Hadoop 软件和数据中心的分布式服务器集群等技术。这是从传统的数据处理转向大数据处理的过渡阶段。

本白皮书洋洋洒洒8 万字,其中分量最重的是第二章和第三章。第二章介绍大数据的典型应用,对应上述第一件事和第三件事。我国的大数据应用刚刚开始,有些应用的数据规模可能还不够大,采用的方法也许不够新,但新兴产业是“用”出来的,只有广泛应用才能发现技术差距和需要突破的技术壁垒。发现典型的大数据应用案例,宣传推广应用大数据技术的经验是本白皮书的主要动机,今后我们会更加关注应用案例的分析介绍。

第三章分析大数据技术体系的现状,对应上述第二件事。专家委员中多数是科研工作者,最熟悉的是本领域科学技术研究的进展,最擅长的是探讨技术发展趋势,分析科学研究和技术开发中面临的问题与挑战。本白皮书的主要价值可能体现在对大数据技术的分析方面。为了反映专家们的群体倾向,专家委每年做一次大数据技术发展趋势的年度预测,通过投票方式将最受关注的科学、技术、产业、应用、政策等相关变化趋势挑选出来。这部分内容反映在第六章6.2.2 节“大数据的技术发展趋势”中,希望能对读者有所启迪。在其他几章,企业界和政府部门的专家也表达了一些真知灼见,如第四章提出的大数据产业链全景图、国内外大数据产业发展呈现的四个趋势、大数据产业发展的主要瓶颈等都有独到的观点。第五章把大数据人才资源问题独立出来专门分析,是因为这是一个十分重要而紧迫的大问题,需要各方面高度重视。

由于时间和篇幅有限,白皮书只选择的部分发展较好的典型应用领域进行介绍,还有很多领域的大数据应用情况没有纳入白皮书。在后续工作中,大数据专家委会将继续不断完善和丰富白皮书的内容,对于特色行业或应用领域,会进行更为详细的调研,出版有针对性的面向行业应用单行本。本白皮书是专家委第一次组织撰写,虽反复修改了十余次,但书中肯定还存在一些内容和文字的错误,撰写组织工作也有很多不当之处,希望产业界和学术界的专家学者和广大读者提出批评和建议,共同推动中国大数据技术与产业的发展。

李国杰

2013 年12 月1 日

 

致 谢

众多大数据专家委委员参与了白皮书的撰写工作,其中,第一章大数据的发展背景部分主要由赵国栋完成,第二章大数据典型应用现状由潘柱廷、苗凯翔和张自力负责整理,其中互联网与大数据由沈烁、查礼、雷涛等撰写;网络通信与大数据由童晓渝、孙少陵、罗圣美、张宝峰等撰写,网络空间安全与大数据由潘柱廷、金波、杜跃进、何利文、胡晓峰等撰写;城镇化、智慧城市与大数据由苗凯翔、李剑等撰写;金融与大数据由赵国栋、石勇、白硕等撰写;健康医疗与大数据由苗凯翔等撰写;生物信息、制药与大数据由胡斌等撰写。第三章大数据技术体系现状由杜小勇、舒继武、黄宜华、王文俊、李翠平、于戈、刘伟、袁晓如等撰写,第四章大数据IT 产业链与生态环境由朱扬勇、施水才、齐红威等撰写;第五章大数据人才资源由朱扬勇、王元卓、靳小龙等撰写,第六章主要由李国杰、程学旗、潘柱廷、王元卓、靳小龙等撰写。程学旗、王元卓、靳小龙负责材料组织和统稿等工作。方锦清、张学工、季统凯、邓波、张师超、陈继东、王意洁、王国胤、周霞、顾宁等大数据专家委委员积极参与了白皮书的撰写,不仅提供了素材,还参与了白皮书的修改工作。由于白皮书经过了多次反复的修改,对参与专家的统计可能还有遗漏,在此表示歉意。对所有参与白皮书编写的专家表示感谢。

 

目 录

第一章 大数据的发展背景 …………………………………….. 1

1.1 大数据的起源 ………………………………………….. 1

1.2 大数据的概念和内涵 …………………………………….. 9

1.3 大数据的发展历程 ……………………………………… 12

1.4 大数据的热点问题 ……………………………………… 18

1.5 各国大数据发展战略 ……………………………………. 19

第二章 大数据典型应用现状 ………………………………….. 24

2.1 互联网与大数据 ……………………………………….. 24

2.2 网络通信与大数据 ……………………………………… 27

2.3 网络空间安全与大数据 ………………………………….. 29

2.4 城镇化、智慧城市与大数据 ………………………………. 33

2.5 金融与大数据 …………………………………………. 36

2.6 健康医疗与大数据 ……………………………………… 39

2.7 生物信息、制药与大数据 ………………………………… 41

第三章 大数据技术体系现状 ………………………………….. 45

3.1 大数据采集与预处理 ……………………………………. 45

3.1.1 问题与挑战………………………………………… 45

3.1.2 主要进展 …………………………………………. 47

3.1.3 发展趋势 …………………………………………. 47

3.2 大数据存储与管理 ……………………………………… 48

3.2.1 问题与挑战 ……………………………………….. 48

3.2.2 主要进展………………………………………….. 49

3.2.3 发展趋势………………………………………….. 53

3.3 大数据计算模式与系统 ………………………………….. 56

3.3.1 问题与挑战………………………………………… 56

3.3.2 主要进展………………………………………….. 57

3.3.3 发展趋势………………………………………….. 60

3.4 大数据分析与挖掘 ……………………………………… 62

3.4.1 问题与挑战 ……………………………………….. 62

3.4.2 主要进展………………………………………….. 64

3.4.3 发展趋势………………………………………….. 65

3.5 大数据可视化分析 ……………………………………… 65

3.5.1 问题与挑战………………………………………… 65

3.5.2 主要进展………………………………………….. 66

3.5.3 发展趋势………………………………………….. 68

3.6 大数据隐私与安全 ……………………………………… 70

3.6.1 问题与挑战………………………………………… 70

3.6.2 主要进展………………………………………….. 72

3.6.3 发展趋势………………………………………….. 73

第四章 大数据IT 产业链与生态环境 ……………………………. 74

4.1 大数据国内外相关产业现状 ………………………………. 74

4.1.1 大数据产业链全景图 ………………………………… 74

4.1.2 国内外发展呈现的四个趋势 …………………………… 75

4.2 大数据产学研合作相关社区、开源组织、行业协会 …………….. 77

4.2.1 大数据相关社区及开源组织 …………………………… 77

4.2.2 大数据行业协会 ……………………………………. 78

4.3 数据生产、数据共享与隐私保护等相关政策与法规 …………….. 79

4.3.1 大数据政策法规概述 ………………………………… 79

4.3.2 数据生产的相关政策与法规 …………………………… 79

4.3.3 数据共享的相关政策与法规 …………………………… 79

4.3.4 隐私保护的相关政策与法规 …………………………… 80

4.4 大数据产业链的创新与瓶颈 ………………………………. 81

4.4.1 大数据产业的创新发展 ………………………………. 81

4.4.2 大数据产业发展的主要瓶颈 …………………………… 82

第五章 大数据人才资源 ……………………………………… 85

5.1 数据科学学位人才培养 ………………………………….. 86

5.2 数据科学职业人才培训 ………………………………….. 88

第六章 大数据发展趋势与建议 ………………………………… 90

6.1 大数据科学问题与学科发展趋势 …………………………… 90

6.1.1 大数据的科学问题 ………………………………….. 90

6.1.2 大数据的学科发展趋势 ………………………………. 92

6.2 大数据的技术挑战与发展趋势 …………………………….. 98

6.2.1 大数据的技术挑战 ………………………………….. 98

6.2.2 大数据的技术发展趋势 ……………………………… 100

6.3 大数据产业的发展重点 …………………………………. 103

6.3.1 构建大数据产业生态环境 ……………………………. 103

6.3.2 大数据产业的发展重点 ……………………………… 104

6.4 大数据未来发展的思考与建议 ……………………………. 105

6.4.1 促进大数据基础研究的建议 ………………………….. 105

6.4.2 发展大数据产业的政策建议 ………………………….. 107

参考文献 ………………………………………………… 110

[请到本网页底部附件下载白皮书完整版PDF文档]