大数据

数据科学与大数据技术专业毕业论文选题

本文来源：西安财经大学数学学院
根据学校关于毕业论文的进度安排，数据科学系全体毕业论文指导老师在2023年11月29日针对2020级数据科学与大数据技术专业的毕业论文选题展开了讨论，以期为学生提供具有实用性和创新性的选题思路。

基于电影数据的PySpark数据处理与分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学信息学院2022级研究生赖芹
指导老师：厦门大学数据库实验室林子雨博士/副教授 ziyulin@xmu.edu.cn
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）

继续阅读

编写爬虫爬取图书网站数据

作者：厦门大学计算机系林子雨副教授
说明：本博客是与林子雨编著《数据采集与预处理》教材配套的教学资料。
操作系统：Ubuntu22.04
编程语言：Python3.10

继续阅读

在Ubuntu22.04中安装MongoDB6.0（2024年1月版）

作者：厦门大学计算机系林子雨副教授
说明：本博客是与林子雨编著《数据采集与预处理》教材配套的教学资料。
操作系统：Ubuntu22.04
数据库：MongoDB6.0

继续阅读

在Ubuntu22.04中安装MySQL8

作者：厦门大学计算机系林子雨博士/副教授
MySQL是一个关系数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle旗下产品。MySQL最流行的关系数据库管理系统，在Web应用方面，MySQL是最好的RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件之一。

继续阅读

Bilibili网站“每周必看”栏目数据分析

继续阅读

基于CO2排放量数据集的数据分析及可视化

继续阅读

【版权声明】版权所有，请勿转载！
【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VMWare、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
作者：厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。

继续阅读

厦大数据库实验室博客

大数据

数据科学与大数据技术专业毕业论文选题

基于电影数据的PySpark数据处理与分析

PySpark 读写Hive数据源

编写爬虫爬取图书网站数据

编写网络爬虫采集百度热搜榜网页

在Ubuntu22.04中安装MongoDB6.0（2024年1月版）

在Ubuntu22.04中安装MySQL8

Bilibili网站“每周必看”栏目数据分析

基于CO2排放量数据集的数据分析及可视化

Spark安装和编程实践（Spark3.4.0）