大数据的概念

大数据学习路线图

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

(1)数据量大

从数据量的角度而言,大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,需要可伸缩的计算体系结构以支持其存储、处理和分析。按照这个标准来衡量,很显然,目前的很多应用场景中所涉及的数据量都已经具备了大数据的特征。比如,博客、微博、微信、抖音等应用平台每天由网民发布的海量信息,属于大数据,再比如,遍布我们工作和生活的各个角落的各种传感器和摄像头,每时每刻都在自动产生大量数据,也属于大数据。
根据著名咨询机构IDC(Internet Data Center)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,大约每两年就增加一倍,这被称为“大数据摩尔定律”。这意味着,人类在最近两年产生的数据量相当于之前产生的全部数据量之和。预计到2020年,全球将总共拥有35ZB(见表1-4)的数据量,与2010年相比,数据量将增长近30倍。
表1-4 数据存储单位之间的换算关系
单位 换算关系
Byte(字节) 1Byte=8bit
KB(Kilobyte,千字节) 1KB=1024Byte
MB(Megabyte,兆字节) 1MB=1024KB
GB(Gigabyte,吉字节) 1GB=1024MB
TB(Trillionbyte,太字节) 1TB=1024GB
PB(Petabyte,拍字节) 1PB=1024TB
EB(Exabyte,艾字节) 1EB=1024PB
ZB(Zettabyte,泽字节) 1ZB=1024EB

随着数据量的不断增加,数据所蕴含的价值会从量变发展到质变。举例来说,有一张照片,照片里的人在骑马。受到照相技术的制约,早期我们只能每一分钟拍一张,随着照相设备的不断改进,处理速度越来越快,发展到后来,就可以1秒钟拍1张,而当有一天发展到到1秒钟可以拍10张以后,就产生了电影。当数量的增长实现质变时,就由一张照片变成了一部电影。同样的量变到质变过程,也会发生在数据量的增加过程之中。

(2)数据类型繁多

大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的类型繁多的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等,都呈现出“井喷式”增长,所涉及的数量十分巨大,已经从TB级别跃升到PB级别。各行各业,每时每刻,都在不断生成各种不同类型的数据。
(1)消费者大数据。中国移动拥有超过8亿的用户,每天获取新数据达到14TB,累计存储量超过300PB;阿里巴巴的月活跃用户超过5亿,单日新增数据超过50TB,累计超过数百PB,百度月活跃用户近7亿,每天数据处理能力达到100PB,腾讯月活跃用户超过9亿,数据每日新增数百TB,总存储量达到数百PB;京东每日新增数据1.5PB,2016年累计数据达到100PB,年增300%;今日头条日活跃用户3000万,日处理数据量7.8PB;30%国人用外卖,周均3次,美团用户6亿,数据超过4.2PB;滴滴打车用户超过4.4亿,每日新增轨迹数据70TB,处理数据超过4.5PB;我国共享单车市场,拥有2亿用户,超过700万辆自行车,每天骑行超过3000万次,每天产生30TB数据;携程网每天线上访问量上亿,每日新增数据量400TB,存量超过50PB;小米公司的联网激活用户超过3亿,小米云服务数据总量200PB。
(2)金融大数据。中国平安有8.8亿客户的脸谱和信用信息以及5000万个声纹库;中国工商银行拥有5.5亿个人客户,全行数据超过60PB;中国建设银行用户超过5亿,手机银行用户达到1.8亿,网银用户超过2亿,数据存储能力达到100PB;中国农业银行拥有5.5亿个人客户,日梳理数据达到1.5TB,数据存储量超过15PB;中国银行拥有5亿个人客户,手机银行客户达到1.15亿,电子渠道业务替代率达到94%。
(3)医疗大数据。一个人拥有1014个细胞,109个碱基,一次全面的基因测序产生的个人数据可以达到100GB到600GB。华大基因公司2017年产出的数据达到1个EB。在医学影像中,一次3D核磁共振检查可以产生150MB数据,一张CT图像150MB。2015年,美国平均每家医院需要管理665TB数据量,个别医院年增数据达到PB级别。
(4)城市大数据。一个8Mbps摄像头产生的数据量是3.6GB/小时,1个月产生数据量为2.59TB。很多城市的摄像头多达几十万个,一个月的数据量达到数百PB,若需保存3个月,则存储的数据量会达到EB量级。北京市政府部门数据总量,2011年达到63PB,2012年达到95PB,2018年达到数百PB。全国政府大数据加起来为数百个甚至上千个阿里的体量。
(5)工业大数据。Rolls Royce 公司对飞机引擎做一次仿真,会产生数十TB的数据。一个汽轮机的扇叶在加工中就可以产生0.5TB的数据,扇叶生产每年会收集3PB的数据。叶片运行数据为588GB/天。美国通用电气公司在出厂飞机的每个引擎上装20个传感器,每引擎每飞行小时能产生20TB数据并通过卫星回传,每天可收集PB级数据。清华大学与金风科技共建风电大数据平台,2万台风机年运维数据为120PB。
综上所述,大数据的数据类型非常丰富,但是,总体而言可以分成两大类,即结构化数据和非结构化数据,其中,前者占10%左右,主要是指存储在关系数据库中的数据,后者占90%左右,种类繁多,主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。
如此类型繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。传统数据主要存储在关系数据库中,但是,在类似Web 2.0等应用领域中,越来越多的数据开始被存储在NoSQL数据库中,这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。传统的OLAP(On-Line Analytical Processing)分析和商务智能工具大都面向结构化数据,而在大数据时代,用户友好的、支持非结构化数据分析的商业软件也将迎来广阔的市场空间。

(3)处理速度快

大数据时代的数据产生速度非常迅速。在Web 2.0应用领域,在1分钟内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,有成千上万台计算机分析这些碰撞。
大数据时代的很多应用,都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践,因此,数据处理和分析的速度通常要达到秒级甚至毫秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。
为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询。

(4)价值密度低

大数据虽然看起来很美,但是,价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话,那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销,为了实现这个目的,就必须构建一个能存储和分析新浪微博数据的大数据平台,使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好,但是,现实代价很大,可能需要耗费几百万元构建整个大数据团队和平台,而最终带来的企业销售利润增加额可能会比投入低许多,从这点来说,大数据的价值密度是较低的。