基于Cherry Studio实现DeepSeek大模型 + RAG知识库

作者：厦门大学信息学院计算机科学系2023级研究生黄万嘉
指导老师：厦门大学数据库实验室林子雨博士/副教授

Cherry Studio 是一款功能强大的跨平台桌面客户端，专为支持多模型服务而设计，旨在为用户提供高效、便捷的 AI 交互体验。它集成了超过 300 个大语言模型，支持多种主流 AI 服务商（如DeepSeek ），并兼容本地模型运行（通过 Ollama），满足用户在不同场景下的需求。

本文使用到的工具及模型有：

Ollama：模型部署工具
DeepSeek R1 1.5b：推理模型，基于Ollama本地部署
nomic-embed-text：嵌入模型，用于对输入的文件（知识）进行向量化
Cherry Studio：集成各功能的AI助手平台

通过上述工具和模型，可以构建一个本地的知识库，帮助大模型进行更准确地回复。

安装Cherry Studio

直接访问Cherry Studio官网进行下载：https://cherry-ai.com/

下载完成后进行安装即可

Cherry Studio中知识库功能原理

知识库的用处

知识库是 Cherry Studio 的核心功能之一，它通过结合外部知识库与大语言模型的能力，显著提升了模型的回答质量和实用性。构建本地知识库可以帮助我们更好地使用大模型，他可以做到：

提升回答准确性

通过检索外部知识库，减少模型“幻觉”，生成更可靠的答案。
特别适合需要精确信息的场景，如法律、医疗、金融等领域。

支持实时更新

用户可以随时上传最新数据，确保模型回答基于最新信息。

多源数据整合

支持文件（PDF、DOCX 等）、文件夹、网页链接、纯文本等多种数据来源。

高效检索与问答

基于语义的向量检索，快速找到相关文档片段，提升工作效率。

知识库原理

图源：Cherry Studio官方教程

在 Cherry Studio 知识库中添加的数据全部存储在本地，在添加过程中会复制一份文档放在 Cherry Studio 数据存储目录，当文档被添加到 Cherry Studio 知识库之后，文件会被切分为若干个片段，然后这些片段会交给嵌入模型进行处理，当使用大模型进行问答的时候，会查询和问题相关的文本片段一并交个大语言模型处理。

在本文中，我们选择“nomic-embed-text”作为EmbeddingModel，DeepSeek-r1-1.5b作为LLM