本文摘自林子雨编著《大数据导论》(访问教材官网)
作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师
E-mail: ziyulin@xmu.edu.cn
大数据的兴起使得数据科学家成为热门职业。2010年的时候,在高科技劳动力市场上还很难见到数据科学家的头衔,但此后,数据科学家逐渐发展成为市场上最热门的职位之一,具有广阔发展前景,并代表着未来的发展方向。
继续阅读
大数据对社会发展的影响
本文摘自林子雨编著《大数据导论》(访问教材官网)
作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师
E-mail: ziyulin@xmu.edu.cn
大数据将会对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式;大数据成为提升国家治理能力的新途径;大数据应用促进信息技术与各行业的深度融合;大数据开发推动新技术和新应用的不断涌现。
大数据对科学研究的影响
本文摘自林子雨编著《大数据导论》(访问教材官网)
作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师
E-mail: ziyulin@xmu.edu.cn
大数据最根本的价值在于为人类提供了认识复杂系统的新思维和新手段。图灵奖获得者、著名数据库专家吉姆•格雷(Jim Gray)博士观察并总结认为,人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式,具体如下。
继续阅读
大数据的概念
本文摘自林子雨编著《大数据导论》(访问教材官网)
作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师
E-mail: ziyulin@xmu.edu.cn
随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。
继续阅读
世界各国的大数据发展战略
本文摘自林子雨编著《大数据导论》(访问教材官网)
作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师
E-mail: ziyulin@xmu.edu.cn
进入大数据时代,世界各国都非常重视大数据发展。瑞士洛桑国际管理学院2017年度《世界数字竞争力排名》显示,各国数字竞争力与其整体竞争力呈现出高度一致的态势,即数字竞争力强的国家,其整体竞争力也很强,同时也更容易产生颠覆性创新。以美国、英国、日本、韩国等为代表的发达国家,非常重视大数据在促进经济发展和社会变革、提升国家整体竞争力等方面的重要作用,把发展大数据上升到国家战略的高度(见表1-3),视大数据为重要的战略资源,大力抢抓大数据技术与产业发展先发优势,积极捍卫本国数据主权,力争在大数据时代占得先机。
继续阅读
大数据编程语言
本文摘自林子雨编著《大数据导论》(访问教材官网)
作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师
E-mail: ziyulin@xmu.edu.cn
在我国,大数据专业也已经成为一个炙手可热的“新工科”专业。目前,国内高校开设的大数据专业主要包括本科院校设立的“数据科学与大数据技术专业”和高职院校设立的“大数据技术与应用”专业。截至2020年,全国已经有1000余所高校设立了大数据专业。
大数据专业可以选择的编程语言比较丰富,包括C、C++、Java、Python、Scala和R等。
继续阅读
安装最新版sbt工具方法和体会
使用Scala语言编写的Spark程序,需要使用sbt进行编译打包。Spark中没有自带sbt,需要单独安装。可以到“http://www.scala-sbt.org”下载sbt安装文件sbt-1.3.8.tgz。
当前(2020年2月26日)笔者在写这篇文章的时候,sbt最新版是1.3.8版本。
继续阅读
Flink安装与编程实践(Flink1.9.1)
-【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用(第3版)》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
Flink是Apache软件基金会的一个顶级项目,是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架,并且可以同时支持实时计算和批量计算。Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的。2014年4月,Stratosphere代码被贡献给Apache软件基金会,成为Apache软件基金会孵化器项目。之后,团队的大部分创始成员离开大学,共同创办了一家名为Data Artisans的公司。在项目孵化期间,为了避免与另外一个项目发生重名,Stratosphere被重新命名为Flink。在德语中,Flink是“快速和灵巧”的意思,使用这个词作为项目名称,可以彰显流计算框架的速度快和灵活性强的特点。
本教程首先介绍Flink的安装,然后以WordCount程序为实例来介绍Flink编程方法。
继续阅读
Spark安装和编程实践(Spark2.4.0)
-【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用(第3版)》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。
继续阅读
MapReduce编程实践(Hadoop3.1.3)
-【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用(第3版)》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
MapReduce是谷歌公司的核心计算模型,Hadoop开源实现了MapReduce。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度抽象到了两个函数:Map和Reduce,并极大地方便了分布式编程工作,编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据的计算。
本教程以一个词频统计任务为主线,详细介绍MapReduce基础编程方法。环境是Ubuntu18.04(或Ubuntu16.04或Ubuntu14.04)、Hadoop3.1.3,开发工具是Eclipse。