国内高校知名大数据教师——厦门大学计算机系林子雨副教授主讲
第24期大数据师资培训班报名主页(Hadoop+Spark综合班,暑假,厦门,2024年7月21日-28日)(访问)
第25期大数据师资培训班报名主页(数据采集与预处理专题班,暑假,泉州,2024年8月4日-9日)(访问)
大数据软件安装和基础编程实践指南(2023年7月版)
版权声明:版权所有,请勿转载。
博客:在VMWare中安装Linux虚拟机
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
摘要:本博客介绍如何在Linux系统中安装各种大数据软件,包括Hadoop、HBase、Spark、Hive、Flink等,以及如何进行编程。
本站所有重要博客索引(可以快速找到你想要阅读的文章)
本站提供了大量大数据学习博客,为了方便读者找到自己感兴趣的文章,特地制作了本索引。
基于Scala语言的Spark数据处理分析案例集锦
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Scala语言的Spark数据处理分析案例集锦
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、赖永炫、陶继平编著《Spark编程基础(Scala版)》(访问教材官网)
(1)基于泰坦尼克号生还数据的Spark数据处理分析
(2)基于美剧《权力的游戏》剧集数据的Spark数据处理分析
(3)基于Covid-19传播数据的Spark数据处理分析
(4)基于DOTA2 Matches数据集的Spark数据处理分析
(5)基于音乐数据的Spark数据处理与分析
(6)基于咖啡连锁店的Spark数据处理分析
(7)基于Spark的气象监测数据分析
(8)基于Spark的厦门市市民球场处理与分析
(9)基于Spark的Google Play应用商店数据分析
(10)基于Spark的淘宝数据分析
(11)基于Spark的电信客户流失分析
(12)基于Spark的NBA球员数据分析
基于Python语言的Spark数据处理分析案例集锦(PySpark)
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Python语言的Spark数据处理分析案例集锦(PySpark)
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
(1)基于YELP数据集的商业数据分析
(2)2020年美国新冠肺炎疫情数据分析
(3)基于零售交易数据的Spark数据处理与分析
(4)基于地震数据的Spark数据处理与分析
(5)基于Spark的地震数据处理与分析
(6)基于信用卡逾期数据的Spark数据处理与分析
(7)基于 TMDB 数据集的电影数据分析
(8)厦门租房信息分析展示
(9)基于Spark的气象数据处理与分析
(10)基于Spark的音乐专辑数据分析展示
(11)基于CO2排放量数据集的数据分析及可视化
(12)Bilibili网站“每周必看”栏目数据分析
(13)基于电影数据的PySpark数据处理与分析
子雨大数据之Spark入门教程(Scala版)
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!
Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。
代码-第9章 Spark-MLlib-林子雨编著《Spark编程基础(Python版,第2版)》
厦门大学林子雨编著《Spark编程基础(Python版,第2版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Spark编程基础(Python版,第2版)》教材中的所有命令行和代码
代码-第8章 Structured Streaming-林子雨编著《Spark编程基础(Python版,第2版)》
厦门大学林子雨编著《Spark编程基础(Python版,第2版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Spark编程基础(Python版,第2版)》教材中的所有命令行和代码
代码-第7章 Spark Streaming-林子雨编著《Spark编程基础(Python版,第2版)》
厦门大学林子雨编著《Spark编程基础(Python版,第2版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Spark编程基础(Python版,第2版)》教材中的所有命令行和代码
代码-第6章 Spark SQL-林子雨编著《Spark编程基础(Python版,第2版)》
厦门大学林子雨编著《Spark编程基础(Python版,第2版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Spark编程基础(Python版,第2版)》教材中的所有命令行和代码
代码-第5章 RDD编程-林子雨编著《Spark编程基础(Python版,第2版)》
厦门大学林子雨编著《Spark编程基础(Python版,第2版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Spark编程基础(Python版,第2版)》教材中的所有命令行和代码
代码-第4章 Spark环境搭建和使用方法-林子雨编著《Spark编程基础(Python版,第2版)》
厦门大学林子雨编著《Spark编程基础(Python版,第2版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Spark编程基础(Python版,第2版)》教材中的所有命令行和代码
代码-第3章 大数据实验环境搭建-林子雨编著《Spark编程基础(Python版,第2版)》
厦门大学林子雨编著《Spark编程基础(Python版,第2版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Spark编程基础(Python版,第2版)》教材中的所有命令行和代码
教材中的代码-林子雨编著《Spark编程基础(Python版,第2版)》
代码-第6章 Table API&SQL-林子雨编著《Flink编程基础(Java版)》
厦门大学林子雨编著《Flink编程基础(Java版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Flink编程基础(Java版)》教材中的所有命令行和代码
代码-第5章 DataStream API-林子雨编著《Flink编程基础(Java版)》
厦门大学林子雨编著《Flink编程基础(Java版)》教材中的命令行和代码(教材官网)
提供了教材中的所有章节的命令行和代码,可以直接复制粘贴去执行。
查看《Flink编程基础(Java版)》教材中的所有命令行和代码