基于Cherry Studio实现DeepSeek大模型 + RAG知识库

大数据学习路线图

作者:厦门大学信息学院计算机科学系2023级研究生 黄万嘉
指导老师:厦门大学数据库实验室 林子雨 博士/副教授

Cherry Studio 是一款功能强大的跨平台桌面客户端,专为支持多模型服务而设计,旨在为用户提供高效、便捷的 AI 交互体验。它集成了超过 300 个大语言模型,支持多种主流 AI 服务商(如DeepSeek ),并兼容本地模型运行(通过 Ollama),满足用户在不同场景下的需求。

本文使用到的工具及模型有:

  1. Ollama:模型部署工具
  2. DeepSeek R1 1.5b:推理模型,基于Ollama本地部署
  3. nomic-embed-text:嵌入模型,用于对输入的文件(知识)进行向量化
  4. Cherry Studio:集成各功能的AI助手平台

通过上述工具和模型,可以构建一个本地的知识库,帮助大模型进行更准确地回复。

安装Cherry Studio

直接访问Cherry Studio官网进行下载:https://cherry-ai.com/

下载完成后进行安装即可

Cherry Studio中知识库功能原理

知识库的用处

​ 知识库是 Cherry Studio 的核心功能之一,它通过结合外部知识库与大语言模型的能力,显著提升了模型的回答质量和实用性。构建本地知识库可以帮助我们更好地使用大模型,他可以做到:

提升回答准确性

  • 通过检索外部知识库,减少模型“幻觉”,生成更可靠的答案。
  • 特别适合需要精确信息的场景,如法律、医疗、金融等领域。

支持实时更新

用户可以随时上传最新数据,确保模型回答基于最新信息。

多源数据整合

支持文件(PDF、DOCX 等)、文件夹、网页链接、纯文本等多种数据来源。

高效检索与问答

基于语义的向量检索,快速找到相关文档片段,提升工作效率。

知识库原理


图源:Cherry Studio官方教程

​ 在 Cherry Studio 知识库中添加的数据全部存储在本地,在添加过程中会复制一份文档放在 Cherry Studio 数据存储目录,当文档被添加到 Cherry Studio 知识库之后,文件会被切分为若干个片段,然后这些片段会交给嵌入模型进行处理,当使用大模型进行问答的时候,会查询和问题相关的文本片段一并交个大语言模型处理。

​ 在本文中,我们选择“nomic-embed-text”作为EmbeddingModel,DeepSeek-r1-1.5b作为LLM

在Cherry Studio中使用知识库

模型安装

在正式使用知识库之前,需要先安装nomic-embed-text模型和DeepSeek R1 1.5b模型,关于这两者的安装,可以直接通过Ollama进行安装,详细的细节可以参考:

  1. 在自己本地计算机上部署DeepSeek R1大模型实战
  2. 在本地计算机上离线部署DeepSeek大模型

设置嵌入模型和推理模型

  1. 在模型管理服务中找到Ollama,点击管理
  2. 找到需要的nomic-embed-text和DeepSeek R1 1.5b,添加到我的模型。


创建知识库

  1. 知识库入口:在 CherryStudio 左侧工具栏,点击知识库图标,即可进入管理页面;
  2. 添加知识库:点击添加,开始创建知识库;
  3. 命名:输入知识库的名称并添加嵌入模型,以 nomic-embed-text为例,创建一个DeepSeek系列文章知识库。


创建成功后可以添加文件进入知识库,进行向量化操作

  1. 添加文件:点击添加文件的按钮,打开文件选择;
  2. 选择文件:选择支持的文件格式,如 pdf,docx,pptx,xlsx,txt,md,mdx 等,并打开;
  3. 向量化:系统会自动进行向量化处理,当显示完成时(绿色 ✓),代表向量化已完成。

向量化完成后,可以搜索数据库,并显示该条结果的匹配分数。

使用知识库问答

  1. 创建一个新的话题,在对话工具栏中,点击知识库,会展开已经创建的知识库列表,选择需要引用的知识库;
  2. 输入并发送问题,模型即返回通过检索结果生成的答案 ;