基于Scala语言的Spark数据处理分析案例集锦

【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Scala语言的Spark数据处理分析案例集锦
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、赖永炫、陶继平编著《Spark编程基础(Scala版)》(访问教材官网

(1)基于泰坦尼克号生还数据的Spark数据处理分析
(2)基于美剧《权力的游戏》剧集数据的Spark数据处理分析
(3)基于Covid-19传播数据的Spark数据处理分析
(4)基于DOTA2 Matches数据集的Spark数据处理分析
(5)基于音乐数据的Spark数据处理与分析
(6)基于咖啡连锁店的Spark数据处理分析
(7)基于Spark的气象监测数据分析
(8)基于Spark的厦门市市民球场处理与分析
(9)基于Spark的Google Play应用商店数据分析
(10)基于Spark的淘宝数据分析
(11)基于Spark的电信客户流失分析
(12)基于Spark的NBA球员数据分析

基于Python语言的Spark数据处理分析案例集锦(PySpark)

【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Python语言的Spark数据处理分析案例集锦(PySpark)
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
(1)基于YELP数据集的商业数据分析
(2)2020年美国新冠肺炎疫情数据分析
(3)基于零售交易数据的Spark数据处理与分析
(4)基于地震数据的Spark数据处理与分析
(5)基于Spark的地震数据处理与分析
(6)基于信用卡逾期数据的Spark数据处理与分析
(7)基于 TMDB 数据集的电影数据分析
(8)厦门租房信息分析展示
(9)基于Spark的气象数据处理与分析
(10)基于Spark的音乐专辑数据分析展示
(11)基于CO2排放量数据集的数据分析及可视化
(12)Bilibili网站“每周必看”栏目数据分析

大数据软件安装和基础编程实践指南(2020年6月版)

大数据软件安装和基础编程实践指南
作者:厦门大学数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn

(1)在Windows中使用VirtualBox安装Ubuntu虚拟机
(2)Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)
(3)Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu
(4)HDFS编程实践(Hadoop3.1.3)
(5)HBase2.2.2安装和编程实践指南
(6)MapReduce编程实践(Hadoop3.1.3)
(7)Hive3.1.2安装指南
(8)Spark安装和编程实践(Spark2.4.0)
(9)Flink安装与编程实践(Flink1.9.1)

子雨大数据之Spark入门教程(Scala版)

子雨大数据之Spark入门
扫一扫访问本博客
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!

Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。

继续阅读

Bilibili网站“每周必看”栏目数据分析

【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院2022级研究生 张金璐
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)

继续阅读

基于CO2排放量数据集的数据分析及可视化

【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学人工智能研究院2022级研究生 邢明炜
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)

继续阅读

Flink安装与编程实践(Flink1.16.2)

【版权声明】版权所有,请勿转载!
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VMWare、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn

Flink是Apache软件基金会的一个顶级项目,是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架,并且可以同时支持实时计算和批量计算。Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的。2014年4月,Stratosphere代码被贡献给Apache软件基金会,成为Apache软件基金会孵化器项目。之后,团队的大部分创始成员离开大学,共同创办了一家名为Data Artisans的公司。在项目孵化期间,为了避免与另外一个项目发生重名,Stratosphere被重新命名为Flink。在德语中,Flink是“快速和灵巧”的意思,使用这个词作为项目名称,可以彰显流计算框架的速度快和灵活性强的特点。
本教程首先介绍Flink的安装,然后以WordCount程序为实例来介绍Flink编程方法。

继续阅读

Spark安装和编程实践(Spark3.4.0)

【版权声明】版权所有,请勿转载!
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VMWare、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。

继续阅读

Hive3.1.3安装和使用指南

【版权声明】版权所有,请勿转载!
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VMWare、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Hadoop分布式文件系统,而Hive需要另外下载安装,本指南就是详细指导大家安装并配置Hive,完成后大家可以结合厦门大学林子雨编著的《大数据技术原理与应用(第3版)》第9章数据仓库Hive进行深入学习。

继续阅读

MapReduce编程实践(Hadoop3.3.5)

【版权声明】版权所有,请勿转载!
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VMWare、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
MapReduce是谷歌公司的核心计算模型,Hadoop开源实现了MapReduce。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度抽象到了两个函数:Map和Reduce,并极大地方便了分布式编程工作,编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据的计算。
本教程以一个词频统计任务为主线,详细介绍MapReduce基础编程方法。环境是Ubuntu16.04(或Ubuntu18.04或Ubuntu20.04或Ubuntu22.04)、Hadoop3.3.5,开发工具是Eclipse。

继续阅读

HDFS编程实践(Hadoop3.3.5)

【版权声明】版权所有,请勿转载!
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VMWare、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
本指南介绍Hadoop分布式文件系统HDFS,并详细指引读者对HDFS文件系统的操作实践。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用(第3版)》第3章节,再结合本指南进行学习。

继续阅读