厦大数据库实验室博客 | 总结、分享、收获

在自己本地计算机上部署DeepSeek R1大模型实战

推荐：林子雨编著《数字素养通识教程》，面向大一新生的大学计算机公共课教材，培养学生的计算思维、数据思维和AI思维（访问教材官网）

在自己本地计算机上部署DeepSeek R1大模型实战

作者：厦门大学计算机系林子雨副教授
简介：编著15本大数据系列教材被国内1000多所高校采用（获取所有教材资源）
E-mail:ziyulin@xmu.edu.cn
个人主页：https://dblab.xmu.edu.cn/post/linziyu/

2025年1月，中国春节期间，DeepSeek爆火，称为全球最炙手可热的大模型。这里以DeepSeek为例介绍在自己本地计算机上部署大模型的方法。操作过程中，遇到很多错误，借助于豆包大模型，把每个错误都解决了，顺利完成了安装过程。我的笔记本电脑是联想ThinkPad X13，安装了Windows10操作系统，硬件配置是，16GB内存，1TB硬盘。实际上，只要电脑具有8GB内存和30GB可用磁盘空间即可安装最小版本的DeepSeek R1大模型。本教程提供了全套软件下载（同时也在文中给出了这些软件的官方下载地址），请从百度网盘下载：https://pan.baidu.com/s/1kOcyzb3QGMnJOoIVXka4NA?pwd=ziyu
提取码是ziyu
备注：我的百度网盘分享链接没有设置人数限制，但是百度依然对这个链接进行人数限制，所以，如果无法访问该链接，可以在阅读正文过程中，根据正文中给出的各个软件的官网地址去官网下载软件，就是速度会稍微慢一些。

或者，也可以加入第3个QQ群（群号是978446419），从群共享文件中下载全套软件。

特别强调，在自己本地计算机上部署DeepSeek R1大模型，不需要读者具备任何计算机基础知识，也不需要掌握任何编程知识，只要会使用Windows操作系统就可以，按照本文给出的步骤，一步步执行，就可以顺利完成所有操作。也就是说，即使是一个大学一年级的文科生，也可以顺利完成本文的所有操作。

继续阅读

林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》

林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》（教材官网）
适用于全校通识课、计算机通识课、人工智能通识课、数字素养通识课

继续阅读

基于Python和Flink的全球疫苗接种数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生黄邦
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨编著《Flink编程基础（Java版）》（访问教材官网）
相关案例：Flink大数据处理分析案例集锦
本案例使用了Kaggle上的全球疫苗接种数据集，在Ubuntu虚拟机上使用Flink框架完成数据处理，使用Python语言实现，最后使用Python plotly包完成数据可视化。
数据集和代码下载：从百度网盘下载本案例的代码和数据集。（提取码是ziyu）

继续阅读

基于Python和Flink的Spotify歌曲数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生亢恒越
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨编著《Flink编程基础（Java版）》（访问教材官网）
相关案例：Flink大数据处理分析案例集锦
本案例用Python语言编写了Flink程序，对Spodify数据集进行了数据处理和分析，之后对分析结果使用Pyecharts进行了可视化，并分别保存为HTML和PNG格式。
数据集和代码下载：从百度网盘下载本案例的代码和数据集。（提取码是ziyu）

继续阅读

基于Spark的PUBG游戏统计数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生黄万嘉
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）
数据集和代码下载：从百度网盘下载本案例数据集和代码。（提取码是ziyu）

继续阅读

基于Python和Flink的酒店数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生欧立瀚
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨编著《Flink编程基础（Java版）》（访问教材官网）
相关案例：Flink大数据处理分析案例集锦
本案例数据集来源于Kaggle 公开项目 Hotel booking demand。使用pandas进行数据清洗，保存到分布式文件系统HDFS中，接下来使用Flink Python API 进行数据分析，主要使用其中的 Table API，最后，采用matplotlib进行可视化。
数据集和代码下载：从百度网盘下载本案例的代码和数据集。（提取码是ziyu）

继续阅读

基于Spark的书籍推荐数据处理与分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生吴聪霞
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）
数据集和代码下载：从百度网盘下载本案例数据集和代码。（提取码是ziyu）
本案例数据集来自Kaggle的书籍推荐数据集。采用pandas对数据进行清洗，采用分布式文件系统HDFS进行数据存储，采用Python编写Spark程序进行数据分析，使用Matplotlib进行数据可视化。

继续阅读

基于Python和Spark的淘宝展示广告点击率预估

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生李坤华
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）
数据集和代码下载：从百度网盘下载本案例数据集和代码。（提取码是ziyu）
本案例数据集来自阿里云天池公共数据集——淘宝展示广告点击率预估数据集。采用pandas对数据进行清洗，采用分布式文件系统HDFS进行数据存储，采用Python编写Spark程序进行数据分析，使用Matplotlib进行数据可视化。

继续阅读

基于PyFlink的二手车交易数据处理与分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生李鑫
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨编著《Flink编程基础（Java版）》（访问教材官网）
相关案例：Flink大数据处理分析案例集锦
本案例采用阿里天池大赛提供的某交易平台的二手车交易记录数据集。使用pandas进行数据清洗，保存到分布式文件系统HDFS中，接下来使用PyFlink进行数据分析，最后，采用matplotlib进行可视化。
数据集和代码下载：从百度网盘下载本案例的代码和数据集。（提取码是ziyu）

继续阅读

基于PyFlink的钻石价格数据处理与分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2023级研究生董畅
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2024年6月
相关教材：林子雨编著《Flink编程基础（Java版）》（访问教材官网）
相关案例：Flink大数据处理分析案例集锦
本案例采用阿里天池大赛提供的钻石价格数据集。使用pandas进行数据清洗，保存到分布式文件系统HDFS中，接下来使用PyFlink进行数据分析，最后，采用matplotlib和seaborn进行可视化。
数据集和代码下载：从百度网盘下载本案例的代码和数据集。（提取码是ziyu）

继续阅读