世界各国的大数据发展战略

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

进入大数据时代,世界各国都非常重视大数据发展。瑞士洛桑国际管理学院2017年度《世界数字竞争力排名》显示,各国数字竞争力与其整体竞争力呈现出高度一致的态势,即数字竞争力强的国家,其整体竞争力也很强,同时也更容易产生颠覆性创新。以美国、英国、日本、韩国等为代表的发达国家,非常重视大数据在促进经济发展和社会变革、提升国家整体竞争力等方面的重要作用,把发展大数据上升到国家战略的高度(见表1-3),视大数据为重要的战略资源,大力抢抓大数据技术与产业发展先发优势,积极捍卫本国数据主权,力争在大数据时代占得先机。
继续阅读

大数据编程语言

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

在我国,大数据专业也已经成为一个炙手可热的“新工科”专业。目前,国内高校开设的大数据专业主要包括本科院校设立的“数据科学与大数据技术专业”和高职院校设立的“大数据技术与应用”专业。截至2020年,全国已经有1000余所高校设立了大数据专业。

大数据专业可以选择的编程语言比较丰富,包括C、C++、Java、Python、Scala和R等。
继续阅读

Flink安装与编程实践(Flink1.9.1)

【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
Flink是Apache软件基金会的一个顶级项目,是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架,并且可以同时支持实时计算和批量计算。Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的。2014年4月,Stratosphere代码被贡献给Apache软件基金会,成为Apache软件基金会孵化器项目。之后,团队的大部分创始成员离开大学,共同创办了一家名为Data Artisans的公司。在项目孵化期间,为了避免与另外一个项目发生重名,Stratosphere被重新命名为Flink。在德语中,Flink是“快速和灵巧”的意思,使用这个词作为项目名称,可以彰显流计算框架的速度快和灵活性强的特点。
本教程首先介绍Flink的安装,然后以WordCount程序为实例来介绍Flink编程方法。
继续阅读

Spark安装和编程实践(Spark2.4.0)

【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。
继续阅读

MapReduce编程实践(Hadoop3.1.3)

【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
MapReduce是谷歌公司的核心计算模型,Hadoop开源实现了MapReduce。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度抽象到了两个函数:Map和Reduce,并极大地方便了分布式编程工作,编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据的计算。
本教程以一个词频统计任务为主线,详细介绍MapReduce基础编程方法。环境是Ubuntu18.04(或Ubuntu16.04或Ubuntu14.04)、Hadoop3.1.3,开发工具是Eclipse。
继续阅读

HDFS编程实践(Hadoop3.1.3)

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频

【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本指南介绍Hadoop分布式文件系统HDFS,并详细指引读者对HDFS文件系统的操作实践。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第3章节,再结合本指南进行学习。

继续阅读

Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)


点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。

本教程由厦门大学数据库实验室 / 林子雨出品,转载请注明。本教程适合于原生 Hadoop3.1.3,主要参考了官方安装教程,步骤详细,辅以适当说明,相信按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些 Linux 的知识,以后出现问题时才能自行解决。

为了方便学习本教程,请读者们利用Linux系统中自带的firefox浏览器打开本指南进行学习。
Hadoop安装文件,可以到Hadoop官网下载hadoop-3.1.3.tar.gz。
也可以直接点击这里从百度云盘下载软件(提取码:lnwl),进入百度网盘后,进入“软件”目录,找到hadoop-3.1.3.tar.gz文件下载到本地。

继续阅读

Hive3.1.2安装指南


点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明:本指南为厦门大学林子雨开设的《大数据技术原理与应用》课程新增配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Hadoop分布式文件系统,而Hive需要另外下载安装,本指南就是详细指导大家安装并配置Hive,完成后大家可以结合厦门大学林子雨开设的《大数据技术原理与应用》课程第14章节进行深入学习。另外,本章有配套在线授课视频和电子书,可以点击这里访问

继续阅读