大数据

Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu

【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本文作者:厦门大学计算机系数据库实验室 林子雨 副教授 E-mail: ziyulin@xmu.edu.cn
本教程讲述如何配置 Hadoop 集群(采用Hadoop3.1.3),默认读者已经掌握了 Hadoop的单机伪分布式配置,否则,请先查看Hadoop安装教程_单机/伪分布式配置教程
继续阅读

在Windows中使用VirtualBox安装Ubuntu虚拟机(2020年7月版本)

【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本教程将指引读者在Windows操作系统下使用开源虚拟机软件VirtualBox安装Ubuntu。本教程是林子雨编著《大数据技术原理与应用》教材的配套教学资源。

继续阅读

借助于Arrow实现PySpark和Pandas之间的数据交换

相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
Apache Arrow是一个高效的列式数据格式,可以在PySpark中实现JVM和Python进程之间的数据交换。这对于使用Numpy和Pandas的Python用户来说,是可以带来很多好处的。不过,它的使用并不是自动发生的,而是需要经过一些安装和配置工作。
继续阅读

基于Spark的音乐专辑数据分析展示

作者:厦门大学信息学院计算机科学系2018级研究生 沈琳
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)

本实验采用Python语言,使用大数据处理框架Spark对音乐专辑数据进行处理分析,并对分析结果进行可视化。
继续阅读

基于Spark的气象数据处理与分析

作者:厦门大学信息学院计算机科学系2018级研究生 陈兆彬
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)

本实验采用Python语言,从网页爬取气象数据,并使用大数据处理框架Spark对气象数据进行处理分析,并对分析结果进行可视化。
继续阅读

基于Python语言的Spark数据处理分析案例集锦(PySpark)

基于Python语言的Spark数据处理分析案例集锦(PySpark)
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
(1)基于YELP数据集的商业数据分析
(2)2020年美国新冠肺炎疫情数据分析
(3)基于零售交易数据的Spark数据处理与分析
(4)基于地震数据的Spark数据处理与分析
(5)基于Spark的地震数据处理与分析
(6)基于信用卡逾期数据的Spark数据处理与分析
(7)基于 TMDB 数据集的电影数据分析
(8)厦门租房信息分析展示
(9)基于Spark的气象数据处理与分析
(10)基于Spark的音乐专辑数据分析展示

基于信用卡逾期数据的Spark数据处理与分析

作者:厦门大学信息学院计算机科学系2019级研究生 陈绍纬
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)

本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。
继续阅读

基于Spark的地震数据处理与分析

作者:厦门大学信息学院计算机科学系2019级研究生 胡冰
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)

本案例针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。
继续阅读