大数据

2025年1月，中国春节期间，DeepSeek爆火，称为全球最炙手可热的大模型。这里以DeepSeek为例介绍在自己本地计算机上部署大模型的方法。操作过程中，遇到很多错误，借助于豆包大模型，把每个错误都解决了，顺利完成了安装过程。我的笔记本电脑是联想ThinkPad X13，安装了Windows10操作系统，硬件配置是，16GB内存，1TB硬盘。实际上，只要电脑具有8GB内存和30GB可用磁盘空间即可安装最小版本的DeepSeek R1大模型。本教程提供了全套软件下载（同时也在文中给出了这些软件的官方下载地址），请从百度网盘下载：https://pan.baidu.com/s/1kOcyzb3QGMnJOoIVXka4NA?pwd=ziyu
提取码是ziyu
备注：我的百度网盘分享链接没有设置人数限制，但是百度依然对这个链接进行人数限制，所以，如果无法访问该链接，可以在阅读正文过程中，根据正文中给出的各个软件的官网地址去官网下载软件，就是速度会稍微慢一些。

或者，也可以加入第3个QQ群（群号是978446419），从群共享文件中下载全套软件。

特别强调，在自己本地计算机上部署DeepSeek R1大模型，不需要读者具备任何计算机基础知识，也不需要掌握任何编程知识，只要会使用Windows操作系统就可以，按照本文给出的步骤，一步步执行，就可以顺利完成所有操作。也就是说，即使是一个大学一年级的文科生，也可以顺利完成本文的所有操作。

继续阅读

林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》

林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》（教材官网）
适用于全校通识课、计算机通识课、人工智能通识课、数字素养通识课

继续阅读

基于Python和Flink的Spotify歌曲数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生亢恒越
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨编著《Flink编程基础（Java版）》（访问教材官网）
相关案例：Flink大数据处理分析案例集锦
本案例用Python语言编写了Flink程序，对Spodify数据集进行了数据处理和分析，之后对分析结果使用Pyecharts进行了可视化，并分别保存为HTML和PNG格式。
数据集和代码下载：从百度网盘下载本案例的代码和数据集。（提取码是ziyu）

继续阅读

基于Spark的PUBG游戏统计数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生黄万嘉
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）
数据集和代码下载：从百度网盘下载本案例数据集和代码。（提取码是ziyu）

继续阅读

基于Python和Flink的酒店数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生欧立瀚
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨编著《Flink编程基础（Java版）》（访问教材官网）
相关案例：Flink大数据处理分析案例集锦
本案例数据集来源于Kaggle 公开项目 Hotel booking demand。使用pandas进行数据清洗，保存到分布式文件系统HDFS中，接下来使用Flink Python API 进行数据分析，主要使用其中的 Table API，最后，采用matplotlib进行可视化。
数据集和代码下载：从百度网盘下载本案例的代码和数据集。（提取码是ziyu）

继续阅读

基于Spark的书籍推荐数据处理与分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生吴聪霞
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）
数据集和代码下载：从百度网盘下载本案例数据集和代码。（提取码是ziyu）
本案例数据集来自Kaggle的书籍推荐数据集。采用pandas对数据进行清洗，采用分布式文件系统HDFS进行数据存储，采用Python编写Spark程序进行数据分析，使用Matplotlib进行数据可视化。

继续阅读

基于Python和Spark的淘宝展示广告点击率预估

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生李坤华
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）
数据集和代码下载：从百度网盘下载本案例数据集和代码。（提取码是ziyu）
本案例数据集来自阿里云天池公共数据集——淘宝展示广告点击率预估数据集。采用pandas对数据进行清洗，采用分布式文件系统HDFS进行数据存储，采用Python编写Spark程序进行数据分析，使用Matplotlib进行数据可视化。

继续阅读