欢迎报名参加林子雨老师主讲
第15期大数据师资培训班报名主页(线上培训,Hadoop+Spark综合班,暑假,2020年7月25日-30日)
点击这里访问报名主页
借助于Arrow实现PySpark和Pandas之间的数据交换
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
Apache Arrow是一个高效的列式数据格式,可以在PySpark中实现JVM和Python进程之间的数据交换。这对于使用Numpy和Pandas的Python用户来说,是可以带来很多好处的。不过,它的使用并不是自动发生的,而是需要经过一些安装和配置工作。
继续阅读
基于Spark的音乐专辑数据分析展示
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院计算机科学系2018级研究生 沈琳
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
本实验采用Python语言,使用大数据处理框架Spark对音乐专辑数据进行处理分析,并对分析结果进行可视化。
继续阅读
基于Spark的气象数据处理与分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院计算机科学系2018级研究生 陈兆彬
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
本实验采用Python语言,从网页爬取气象数据,并使用大数据处理框架Spark对气象数据进行处理分析,并对分析结果进行可视化。
继续阅读
关于数据仓库Hive建表时的LOCATION参数问题
关于数据仓库Hive建表时的LOCATION参数问题
在构建数据仓库Hive的表时,需要用到LOCATION参数,关于这个参数的用法,这里简单探讨一下。
继续阅读
基于Python语言的Spark数据处理分析案例集锦(PySpark)
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Python语言的Spark数据处理分析案例集锦(PySpark)
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版,第2版)》(访问教材官网)
相关案例:基于Scala语言的Spark数据处理分析案例集锦
(1)基于YELP数据集的商业数据分析
(2)2020年美国新冠肺炎疫情数据分析
(3)基于零售交易数据的Spark数据处理与分析
(4)基于地震数据的Spark数据处理与分析
(5)基于Spark的地震数据处理与分析
(6)基于信用卡逾期数据的Spark数据处理与分析
(7)基于 TMDB 数据集的电影数据分析
(8)厦门租房信息分析展示
(9)基于Spark的气象数据处理与分析
(10)基于Spark的音乐专辑数据分析展示
(11)基于CO2排放量数据集的数据分析及可视化
(12)Bilibili网站“每周必看”栏目数据分析
(13)基于电影数据的PySpark数据处理与分析
(14)基于Spark的NBA球员数据分析
(15)基于英国航空公司客户反馈数据的PySpark数据处理与分析
(16)基于Spark的中风数据处理与分析
(17)基于Spark的1996-2022多赛季NBA球员数据分析
(18)基于Spark与大型语言模型的融合应用
(19)基于Python和Spark的淘宝展示广告点击率预估
(20)基于Spark的书籍推荐数据处理与分析
(21)基于Spark的PUBG游戏统计数据分析
基于Spark的地震数据处理与分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院计算机科学系2019级研究生 胡冰
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
本案例针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。
继续阅读
基于零售交易数据的Spark数据处理与分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院计算机科学系2019级研究生 何昕
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
本案例数据集是来自Kaggle的一个跨国在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。
继续阅读
2020年美国新冠肺炎疫情数据分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院计算机科学系2019级研究生 卢思维
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
本案例以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言,使用Spark对数据进行分析,并对分析结果进行可视化。
继续阅读
基于YELP数据集的商业数据分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院智能科学系2019级研究生 王颖敏
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
本实验采用Python语言,使用大数据处理框架Spark对数据进行处理分析,并对分析结果进行可视化。
继续阅读