大数据

基于大模型和Spark的B站数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机科学与技术系2024级研究生陈增辉
指导老师：厦门大学数据库实验室林子雨博士/副教授
时间：2025年6月
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）
数据集和代码下载：从百度网盘下载本案例数据集和代码。（提取码是ziyu）

继续阅读

在Linux中安装Eclipse

Eclipse是常用的程序开发工具，本教程很多程序代码都是使用Eclipse开发调试，因此，需要在Linux系统中安装Eclipse。
可以到Eclipse官网（https://www.eclipse.org/downloads/）下载安装包，或者直接访问教程官网下载该软件，位于“下载专区”的“软件”目录下，文件名是eclipse-4.7.0-linux.gtk.x86_64.tar.gz。假设安装文件下载后保存在了Linux系统的目录“~/Downloads”下，下面执行如下命令对文件进行解压缩：

cd ~/Downloads
sudo tar -zxvf ./eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local

然后，执行如下命令启动Eclipse：

cd /usr/local/eclipse
./eclipse

这时，就可以看到Eclipse的启动界面了。

大数据软件安装和基础编程实践指南（2025年5月版）

版权声明：版权所有，请勿转载。
作者：厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
摘要：本博客介绍如何在Linux系统中安装各种大数据软件，包括Hadoop、HBase、Spark、Hive、Flink等，以及如何进行编程。本博客内容与林子雨编著《大数据技术原理与应用（第4版，高职版）》（访问教材官网）教材配套。

继续阅读

使用coze搭建基于DeepSeek大模型的智能体实现智能客服问答

作者：厦门大学信息学院计算机科学系2023级研究生曹基民
指导老师：厦门大学数据库实验室林子雨博士/副教授

本章实验完全依托于coze在线平台，不需要本地部署任何应用。
本章以搭建关于厦门大学数据库实验室的客服为例，如有搭建其他客服的需要，可以修改相关内容自行搭建。

继续阅读

基于Ollama + Open-Webui实现局域网内DeepSeek大模型分享以及知识库构建

作者：厦门大学信息学院计算机科学系2023级研究生黄万嘉
指导老师：厦门大学数据库实验室林子雨博士/副教授

部分行业（如金融、医疗、政务等）对数据存储和传输有严格的合规要求，在局域网内部署DeepSeek可以满足监管需求。同时，内网部署 DeepSeek 并使用局域网共享，不仅能够提升数据安全性和服务稳定性，还能满足团队高效协作、合规管控和定制化需求，是团队或企业内部智能化升级的理想选择。

基于此，本文采用Ollama + Open-Webui的方案，实现宿主机本地部署DeepSeek等大模型并构建知识库，其他同一局域网内的用户机可以通过浏览器使用DeepSeek以及宿主机构建的知识库。

继续阅读

基于Cherry Studio实现DeepSeek大模型 + RAG知识库

作者：厦门大学信息学院计算机科学系2023级研究生黄万嘉
指导老师：厦门大学数据库实验室林子雨博士/副教授

Cherry Studio 是一款功能强大的跨平台桌面客户端，专为支持多模型服务而设计，旨在为用户提供高效、便捷的 AI 交互体验。它集成了超过 300 个大语言模型，支持多种主流 AI 服务商（如DeepSeek ），并兼容本地模型运行（通过 Ollama），满足用户在不同场景下的需求。

本文使用到的工具及模型有：

Ollama：模型部署工具
DeepSeek R1 1.5b：推理模型，基于Ollama本地部署
nomic-embed-text：嵌入模型，用于对输入的文件（知识）进行向量化
Cherry Studio：集成各功能的AI助手平台

通过上述工具和模型，可以构建一个本地的知识库，帮助大模型进行更准确地回复。

继续阅读

基于DeepSeek大模型和Page Assist构建本地知识库

作者：厦门大学信息学院计算机科学系2023级研究生黄万嘉
指导老师：厦门大学数据库实验室林子雨博士/副教授

在构建本地知识库时，通常会结合 Page Assist 和 nomic-embed-text，常见的方案为：

使用 nomic-embed-text 模型将知识库文档向量化。
当用户提问时，将问题向量化并与知识库中的文档向量进行相似性匹配，找到最相关的上下文。
将检索到的上下文输入大语言模型（如 DeepSeek），生成最终的回答

Page Assist提供了一个本地大模型的Web UI，同时也提供了方便的RAG设置，使得我们更快捷地构建本地知识库，基于此，本文采用Page Assist，基于DeepSeek大模型，实现了用户提供本地知识库（.pdf/.csv/.docx/.md），大模型进行更加专业地回复。

继续阅读

在本地计算机上利用AnythingLLM构建DeepSeek大模型本地知识库

作者：厦门大学信息学院计算机科学系2023级研究生曹基民
指导老师：厦门大学数据库实验室林子雨博士/副教授

系统要求：win10及以上
硬盘空间：10G以上
硬件要求：
CPU：Intel Core i5/AMD Ryzen 5及以上
GPU：无强制要求，有1GB及以上显存可提升性能

继续阅读

在本地计算机上离线部署DeepSeek大模型

作者：厦门大学信息学院计算机科学系2023级研究生黄万嘉
指导老师：厦门大学数据库实验室林子雨博士/副教授

安装系统：要求Windows10 及以上
磁盘空间：要求不少于5GB

继续阅读

在自己本地计算机上部署DeepSeek R1大模型实战

推荐：林子雨编著《数字素养通识教程》，面向大一新生的大学计算机公共课教材，培养学生的计算思维、数据思维和AI思维（访问教材官网）

在自己本地计算机上部署DeepSeek R1大模型实战

作者：厦门大学计算机系林子雨副教授
简介：编著15本大数据系列教材被国内1000多所高校采用（获取所有教材资源）
E-mail:ziyulin@xmu.edu.cn
个人主页：https://dblab.xmu.edu.cn/post/linziyu/

2025年1月，中国春节期间，DeepSeek爆火，称为全球最炙手可热的大模型。这里以DeepSeek为例介绍在自己本地计算机上部署大模型的方法。操作过程中，遇到很多错误，借助于豆包大模型，把每个错误都解决了，顺利完成了安装过程。我的笔记本电脑是联想ThinkPad X13，安装了Windows10操作系统，硬件配置是，16GB内存，1TB硬盘。实际上，只要电脑具有8GB内存和30GB可用磁盘空间即可安装最小版本的DeepSeek R1大模型。本教程提供了全套软件下载（同时也在文中给出了这些软件的官方下载地址），请从百度网盘下载：https://pan.baidu.com/s/1kOcyzb3QGMnJOoIVXka4NA?pwd=ziyu
提取码是ziyu
备注：我的百度网盘分享链接没有设置人数限制，但是百度依然对这个链接进行人数限制，所以，如果无法访问该链接，可以在阅读正文过程中，根据正文中给出的各个软件的官网地址去官网下载软件，就是速度会稍微慢一些。

或者，也可以加入第3个QQ群（群号是978446419），从群共享文件中下载全套软件。

特别强调，在自己本地计算机上部署DeepSeek R1大模型，不需要读者具备任何计算机基础知识，也不需要掌握任何编程知识，只要会使用Windows操作系统就可以，按照本文给出的步骤，一步步执行，就可以顺利完成所有操作。也就是说，即使是一个大学一年级的文科生，也可以顺利完成本文的所有操作。

继续阅读