Author: 林子雨老师

基于零售交易数据的Spark数据处理与分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学信息学院计算机科学系2019级研究生何昕
指导老师：厦门大学数据库实验室林子雨博士/副教授
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）

本案例数据集是来自Kaggle的一个跨国在线零售业务的交易数据，采用Python为编程语言，采用Hadoop存储数据，采用Spark对数据进行处理分析，并使用Echarts做数据可视化。
继续阅读

2020年美国新冠肺炎疫情数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学信息学院计算机科学系2019级研究生卢思维
指导老师：厦门大学数据库实验室林子雨博士/副教授
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）

本案例以2020年美国新冠肺炎疫情数据作为数据集，以Python为编程语言，使用Spark对数据进行分析，并对分析结果进行可视化。
继续阅读

基于YELP数据集的商业数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学信息学院智能科学系2019级研究生王颖敏
指导老师：厦门大学数据库实验室林子雨博士/副教授
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）

本实验采用Python语言，使用大数据处理框架Spark对数据进行处理分析，并对分析结果进行可视化。
继续阅读

大数据软件安装和基础编程实践指南（2020年6月版）

大数据软件安装和基础编程实践指南
作者：厦门大学数据库实验室林子雨博士/副教授 E-mail: ziyulin@xmu.edu.cn

（1）在Windows中使用VirtualBox安装Ubuntu虚拟机
（2）Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)
（3）Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu
（4）HDFS编程实践（Hadoop3.1.3）
（5）HBase2.2.2安装和编程实践指南
（6）MapReduce编程实践(Hadoop3.1.3)
（7）Hive3.1.2安装指南
（8）Spark安装和编程实践（Spark2.4.0）
（9）Flink安装与编程实践（Flink1.9.1）

使用Jupyter Notebook调试PySpark程序

使用Jupyter Notebook调试PySpark程序
厦门大学计算机科学系数据库实验室林子雨博士/副教授 ziyulin@xmu.edu.cn
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》，访问教材官网（http://dblab.xmu.edu.cn/post/spark-python/）

一、Jupyter Notebook简介

名称 Jupyter 是由Julia、Python和R三个单词组合而成的。Jupyter Notebook是一种Web应用，它能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中，非常方便研究和教学。Jupyter Notebook特别适合做数据处理，其用途可以包括数据清理和探索、可视化、机器学习和大数据分析。

Jupyter notebook 的核心是 Notebook 的服务器。用户通过浏览器连接到该服务器，而 Notebook呈现为Web应用。用户在Web应用中编写的代码通过该服务器发送给内核，内核运行代码，并将结果发送回该服务器。然后，任何输出都会返回到浏览器中。保存 Notebook 时，它将作为 JSON 文件（文件扩展名为 .ipynb）写入到该服务器中。
继续阅读