首页 - 文章 - 人工智能指南 - 正文

可能最细！Deepseek 本地部署 + 本地知识库

奔跑中的奶酪 2024/03/08

1.72W 6

感谢 DeepSeek 开源！

低成本 + 高性能，在本地离线部署大模型，还有搭建个人 AI 知识库的需求，从未如此高涨！

而本期内容，可能是全网最细的本地大模型部署教程。

1.1、项目简介

如果你从来没有尝试过在本地电脑部署离线大模型，那么本文将是你的“保姆级”教程。

而尝试部署本地大模型的意义，要远大于模型本身。

1.2、项目清单

模型选择 - 详细
模型选择	简介
1、模型压缩	量化压缩，通过减低模型精度来压缩文件体积。
2、量化模型	R1 671B 全量 720G，4-Bit 量化 404GB，1.58-Bit 动态量化 131G。
3、蒸馏模型	将大模型（老师模型））训练的知识迁移小模型（学生模型）。
4、方案选择	关键点：显卡的显存大小，要大于大模型的文件体积。
无显卡	无显卡满血 R1：可以用多核 CPU + 大内存，但速度会很慢。
最便宜	最便宜满血 R1：192GB Mac Studio + 1.58-Bit 动态量化版，价格 5万。
N 卡	N 卡满血 R1：1.58-Bit 动态量化版，要 8 张 4090 显卡，至少 12 万。
性价比	最性价比方案：Qwen-32B 4-Bit 量化版，一张 4090 显卡即可带动。
零门槛	零门槛方案：随便一台电脑都可以跑 Qwen-1.5B，可用作“搜索引擎”。
5、性能实测	Qwen-32B 无疑是个人部署的最佳选择。

显卡选择 - 详细
官方满血版	简介
DeepSeek R1	8-bit 全量，720G 大小，safetensors 格式，需 8 张 H200（141G）
Llama-70B	16-bit 全量，150G 大小，safetensors 格式，需 7 张 4090（24G）
Qwen-32B	16-bit 全量，66G 大小，safetensors 格式，需 3 张 4090（24G）
Qwen-14B	16-bit 全量，30G 大小，safetensors 格式，需 2 张 4090（24G）
Llama-8B	16-bit 全量，16G 大小，safetensors 格式，需 1 张 4080（16G）
Qwen-7B	16-bit 全量，15G 大小，safetensors 格式，需 1 张 4080（16G）
Qwen-1.5B	16-bit 全量，3.5G 大小，safetensors 格式，需 1 张 4060（8G）
特别说明：	不推荐使用 Llama 模型，性能拉垮，“高耗能，但低性能”的代表。
量化版	简介
4-bit 量化	671B 参数，404G 大小，GGUF 格式，需 8 张 H000（80G）
1.58-bit 量化	671B 参数，131G 大小，GGUF 格式，需 8 张 4090（24G）
特别说明：	Mac 电脑的话，只需要一台 192G 统一内存的 Mac Studio 即可。
蒸馏量化版	简介
Llama-70B	4-bit 量化，43G 大小，GGUF 格式，需 2 张 4090（24G）
Qwen-32B	4-bit 量化，20G 大小，GGUF 格式，需 1 张 4090（24G）
Qwen-14B	4-bit 量化，9G 大小，GGUF 格式，需 1 张 4070（12G）
Llama-8B	4-bit 量化，4.9G 大小，GGUF 格式，需 1 张 4050（6G）
Qwen-7B	4-bit 量化，4.7G 大小，GGUF 格式，需 1 张 4050（6G）
Qwen-1.5B	4-bit 量化，1.1G 大小，GGUF 格式，无需显卡，手机也能用。
特别说明：	不推荐使用 Llama 模型，性能拉垮，Qwen-32B 是最佳选择。
特别说明 2：	Mac 电脑的话，需要一台 64G 统一内存的 Mac Studio 即可。

本地部署客户端 - 详细
本地客户端	简介
Ollama	服务端 + 客户端（命令行界面）推荐！ 👍
LM Studio	服务端 + 客户端（图形化界面）
GPT4ALL	服务端 + 客户端（图形化界面）
仅客户端	简介
Cherry Studio	客户端（图形化界面）推荐！ 👍
AnythingLLM	客户端（图形化界面）
Chatbox	客户端（图形化界面）支持 Web 网页，也支持本地客户端。
Open WebUI	客户端（图形化界面）支持 Web 网页，类似 ChatGPT。
Page Assist	客户端（浏览器扩展）支持「联网搜索」。本地下载
手机客户端	简介
PocketPal Al	手机客户端，可离线跑大模型，支持 iPhone，安卓。推荐！ 👍
ChatterUI	手机客户端，可离线跑大模型，目前只支持安卓。

本地部署方法 - 详细
安装方法	简介
Ollama	如果下载慢，可以用镜像下载链接：Windows、Mac。
模型下载	https://ollama.com/library，终端输入 ollama run deepseek-r1:1.5b
自定义下载	阿里满速下载源：https://www.modelscope.cn/organization/unsloth
储存位置	setx OLLAMA_MODELS "E:\Ollama\.ollama\models"，要重启 Ollama

本地知识库 - 详细
安装方法	简介
工作原理	利用“嵌入模型”将文档向量化后，以 RAG的方式嵌入到大模型里。
嵌入模型	安装开源嵌入模型： nomic-embed-text
添加知识库	点击 CherryStudio 左侧的“知识库”按钮来添加。
使用知识库	在任意聊天窗口里，只需要勾选“知识库”，即可使用。

1.3、项目总结

本地部署大模型分两派：一派认为“不是满血，不值当”，另一派“能用就行，要什么自行车”。

而奶酪认为，这是一项“战未来”的技能。

你想想，DeepSeek 储存着人类所有的文明成果，再加上部署成本只会越来越低。

你今天不学，明天也得学。

在开始之前，你应该了解一下，你的电脑能跑什么样的大模型，尽管“是台电脑”都能跑。

2.1、模型压缩

首先，我们知道大模型的参数是以“浮点数”的形式储存，通常用 32 位来表示，也就是 FP32。

而在电脑里，1 个字节有 8 位。

所以，大模型的 1 个参数，在电脑里就需要 4 个字节。

671B 的大模型（6710 亿参数）也就是 26840 亿字节，二进制转换后大约是 2.4TB 大小。

这完全就是“天文数字”。

就像“图片压缩”一样，大模型也需要进行压缩。

最有效的方法，就是进行「量化压缩」，也就是减少大模型参数的精确度。

就好比我们用 “13 克来代替 13.1克”，牺牲一些精度，但换来了效率。

如果用 16 位来表示浮点数，虽然精度降低了，但体积却减少了一半，同理，8 位则只有 1/4。

DeepSeek 开创性地使用了 8 位 “混合精度” 训练方法。

也就是大多数情况下用 FP8 精度，只有在需要和关键的时候，再用 FP16 或 FP32 精度。

这大大节省了计算资源，并最终的模型效果精度损失极小，几乎无损。

最终，671B 的大模型被压缩到了 720GB。

2.2、量化模型

但是，在本地跑 671B 全量（8 位）大模型至少要 720GB 内存（内存+显存），还是太大了。

于是，又有人推出了 4-bit 量化版（4 位），模型体积减少到了 404GB。

目前大部分的 DeepSeek 量化模型都是出自博主 unsloth.ai。

甚至，他还推出了 1.58-bit 动态量化版，也就是在关键的地方用 4-6bit，其它地方用 1-2bit。

最终，模型体积被压缩到了 131GB。

也就是说，可以在 1 台 Mac Studio（192G 统一内存）上，就可以运行 R1 671B 大模型。

2.3、蒸馏模型

不过，对于普通用户来说， 131GB 的内存（或显存）还是太大了，于是就有了“模型蒸馏”。

模型蒸馏，就是将一个大模型（老师模型）训练的知识迁移到小模型（学生模型）。

在以减少“参数总量”的同时，保留大模型的核心性能。

比如 GPT-4o-mini 就属于 GPT-4o 的蒸馏模型。

DeepSeek 将 R1 的思维链数据，对 Qwen 和 Llama 模型进行蒸馏，并推出了多个版本。

包括了 1.5B、7B、8B、14B、32B、70B。

其中的 1.5B 版本，只要电脑不是“老爷机”，那么就可以跑起来。

值得一说的是，

根据 DeepSeek 官方发布的蒸馏模型评测，Llama-70B 模型的性价比非常低。

它用了 2 倍多的资源，却只与 Qwen-32B 打了个平手。

可见 Llama 大模型性能之差，换句话说，Qwen-32B 就是所有蒸馏版里的最佳选择。

2.4、方案选择

如何选择自己电脑能跑的大模型，关键点在于：显卡的显存大小，要大于大模型的文件体积。

Mac 电脑，则是“统一内存”要大于大模型的文件体积。

下面是常见方案。

1、无显卡满血 R1

没有显卡，能不能跑呢？用“工作站电脑”是可以的，也就用「多核 CPU + 大内存」来实现。

因为用 Ollama 来部署本地大模型，它支持 CPU 和 GPU 的混合推理。

当显卡的显存不够用时，就调用电脑的内存来运行。

但问题是，CPU + 内存 没办法实现「高并发」和「高带宽」，就是能跑，但速度非常慢。

视频参考：https://www.bilibili.com/video/BV1REPqeFE6d

2、最便宜满血 R1

目前而言，要想在个人电脑上跑 671B DeepSeek R1 大模型，最便宜的实现方案。

是买一台 Mac Studio（192GB 统一内存），价格大概 5 万元人民币。

然后选择 1.58-Bit 动态量化的版本。

不过，奶酪建议再等几个月，今年 6 月马上就会发布 M4 Ultra 芯片版 Mac Studio 了。

视频参考：https://www.bilibili.com/video/BV1BZF5e8Em3

3、N 卡满血 R1

如果是 Windows 平台，在本地跑 R1 671B 4-Bit 大模型，官方的推荐是 8 张 H100 显卡。

价格至少需要 200万，即使是 1.58-Bit 动态量化版，也需要 3 张 H100 显卡。

价格至少需要 75万。

用 4090 显卡跑 1.58-Bit 动态量化版，也至少需要 8 张，单单显卡的价格就至少要 12 万。

更别说高功率导致的高电费了。

视频参考：https://www.bilibili.com/video/BV1BYFeeEExi

4、最性价比方案

如果你想在“个人电脑”上，部署一个本地大模型，最具性价比的方案，无疑是 Qwen-32B。

不推荐 Llama-70B，因为它用了 2 倍多的资源，却只与 Qwen-32B 打了个平手。

2.5、显卡选择

下面是模型与显卡的选择：

显卡选择 - 详细
官方满血版	简介
DeepSeek R1	8-bit 全量，720G 大小，safetensors 格式，需 8 张 H200（141G）
Llama-70B	16-bit 全量，150G 大小，safetensors 格式，需 7 张 4090（24G）
Qwen-32B	16-bit 全量，66G 大小，safetensors 格式，需 3 张 4090（24G）
Qwen-14B	16-bit 全量，30G 大小，safetensors 格式，需 2 张 4090（24G）
Llama-8B	16-bit 全量，16G 大小，safetensors 格式，需 1 张 4080（16G）
Qwen-7B	16-bit 全量，15G 大小，safetensors 格式，需 1 张 4080（16G）
Qwen-1.5B	16-bit 全量，3.5G 大小，safetensors 格式，需 1 张 4060（8G）
特别说明：	不推荐使用 Llama 模型，性能拉垮，“高耗能，但低性能”的代表。
量化版	简介
4-bit 量化	671B 参数，404G 大小，GGUF 格式，需 8 张 H000（80G）
1.58-bit 量化	671B 参数，131G 大小，GGUF 格式，需 8 张 4090（24G）
特别说明：	Mac 电脑的话，只需要一台 192G 统一内存的 Mac Studio 即可。
蒸馏量化版	简介
Llama-70B	4-bit 量化，43G 大小，GGUF 格式，需 2 张 4090（24G）
Qwen-32B	4-bit 量化，20G 大小，GGUF 格式，需 1 张 4090（24G）
Qwen-14B	4-bit 量化，9G 大小，GGUF 格式，需 1 张 4070（12G）
Llama-8B	4-bit 量化，4.9G 大小，GGUF 格式，需 1 张 4050（6G）
Qwen-7B	4-bit 量化，4.7G 大小，GGUF 格式，需 1 张 4050（6G）
Qwen-1.5B	4-bit 量化，1.1G 大小，GGUF 格式，无需显卡，手机也能用。
特别说明：	不推荐使用 Llama 模型，性能拉垮，Qwen-32B 是最佳选择。
特别说明 2：	Mac 电脑的话，需要一台 64G 统一内存的 Mac Studio 即可。

2.6、性能实测

总结一下，首先排除 Llama 8B 和 70B 蒸馏模型，它们简直是“高耗能，但低性能”的代表。

1.5B 可以在任意电脑上部署，甚至手机上也可以。

看个人设备条件选择 7B、14B、32B，

而 Qwen-32B 无疑是最佳选择。

奶酪测试了一些“大模型智障检测”，在 Qwen-32B 蒸馏模型下，只有问题 2 时对，时不对。

1、9.11 和 9.8 谁大

2、strawberry 有几个 r

3、鲁讯为什么打周树人

4、西红柿炒钢丝球怎么做

5、生鱼片为什么是死鱼片

无论如何，你都应该学会本地部署大模型，那怕只有 1.5B，因为它是一项“战未来”的技能。

3.1、客户端

本地部署大模型，最方便的工具当属 Ollama。

Ollama 有服务端和客户端的功能，但客户端推荐 Cherry Studio，更方便。

手机端则推荐 PocketPal Al。

在手机上跑一个 1.5B 的大模型，还是绰绰有余的，甚至，安卓用户还可以考虑试试 7B 的。

本地部署客户端 - 详细
本地客户端	简介
Ollama	服务端 + 客户端（命令行界面）推荐！ 👍
LM Studio	服务端 + 客户端（图形化界面）
GPT4ALL	服务端 + 客户端（图形化界面）
仅客户端	简介
Cherry Studio	客户端（图形化界面）推荐！ 👍
AnythingLLM	客户端（图形化界面）
Chatbox	客户端（图形化界面）支持 Web 网页，也支持本地客户端。
Open WebUI	客户端（图形化界面）支持 Web 网页，类似 ChatGPT。
Page Assist	客户端（浏览器扩展）支持「联网搜索」。本地下载
手机客户端	简介
PocketPal Al	手机客户端，可离线跑大模型，支持 iPhone，安卓。推荐！ 👍
ChatterUI	手机客户端，可离线跑大模型，目前只支持安卓。

3.2、安装方法

首先，到 Ollama 官网下载安装包。如果下载慢，可以用镜像下载链接：Windows、Mac。

其次，Ollama 默认会安装在 C 盘。

想要安装在其它的盘，则要用命令来指定安装路径，比如 OllamaSetup.exe /dir=E:\Ollama

代码以安装在 E:\Ollama 为例，具体操作步骤如下。

安装好后，接着是下载模型，在 Cmd 窗口 或者终端，输入 ollama run deepseek-r1:1.5b

Ollama 就会自动下载，这里的 1.5b 可以修改为你想下载的版本。

代码命令，Windows 和 Mac 都是一样的。

下载时，如果速度变慢或者卡住不动了。

在窗口里按一下 Ctrl+C 取消下载，然后再次输入代码，就会重新下载，进度不会丢失。

3.3、自定义下载

但不出意外，模型下载的速度会非常的慢，那么可以换用国内的阿里魔搭社区，可满速下载。

下载代码：ollama run modelscope.cn/模型 ID

同样，如果你想下载 HuggingFace 上的模型，比如 Qwen-32B-abliterated 被称为“越狱版”。

下载方法，同样也是复制模型 ID，然后粘贴下载。

下载代码：ollama run hf.co/模型 ID

需要注意的是。

Ollama 存储模型的位置也是在 C 盘，你可以在 Cmd 窗口输入下面这条代码来修改，比如：

setx OLLAMA_MODELS "E:\Ollama\.ollama\models"

特别需要注意的是，设置好后，一定要退出 Ollama，重启一下 Ollama 才会生效。

接着，在命令行里输入 ollama list，即可查看已下载的模型。

最后，你还可以将之前下载过的模型，移动到新的目录来，比如我安装在了 E:\Ollama

只需要将默认位置的整个 .ollama 文件夹，复制过来即可。

这也是之前把模型储存位置修改为 E:\Ollama\.ollama\models 的原因，直接一键复制即可。

#默认安装位置：
macOS: ~/.ollama/models
Windows: C:\Users\%username%\.ollama\models

CherryStudio 同时还支持本地知识库部署，它可以很方便的帮助你搭建个人 AI 知识库。

4.1、工作原理

本地知识库的工作原理。

就是利用“嵌入模型”将文档向量化后，以 RAG（检索增强生成）的方式嵌入到大模型里。

当用户询问某个关键字时，大模型就会优先以文档内容为准来做输出。

比如我们将网梗“罗永浩买星巴克咖啡”加入到知识库后。

问大模型“罗老师要的是什么杯”？

大模型会告诉你“中杯”，而如果没有本地知识库，那么大模型就会“自由发挥、胡编乱造”了。

4.2、添加嵌入模型

本地用的开源嵌入模型，有一个叫 nomic-embed-text 的嵌入模型，文件大小 274M。

在 Cmd 窗口 或者终端上输入 ollama pull nomic-embed-text，即可下载。

模型链接：https://ollama.com/library/nomic-embed-text

下载完成后， Cherry Stuido 的 Ollama 选项里，就会出现它的选项，把它勾选上即可。

4.3、添加知识库

点击 CherryStudio 左侧的“知识库”按钮，分别“输入知识库名称”和“选择嵌入模型”。

然后，将你需要添加的“文档或者文件夹”添加到知识库，等待它向量化完成。

4.4、勾选知识库

最后，在任意聊天窗口里，只需要“勾选知识库”，那么本地知识库就能嵌入到大模型里。

待更新...

最后

欢迎关注奶酪公众号获取奶酪所有的原创资源，回复文章编号，比如 A03 就可获取对应的资源。
欢迎订阅我的 “奶酪书签专业版”，15年沉淀，超过 5000 个分类井条有序的好用实用 html 网站书签。
本文由「奔跑中的奶酪」原创创作，欢迎订阅、留言和打赏，也欢迎引用和转载，但要注明出处。

…

上一篇：可能最全！文明之光 DeepSeek 使用指南（2025-02-19）下一篇：全网首发，没有比之更快的「AI 搜索」方法

AB发布于： 2025/03/02 08:05

回复

联想Y9000P，i9-12900H，16G内存，3060 6GB，跑qwen 7B很流畅，就是回答不靠谱，上传的知识库答非所问，何解？
qianyu发布于： 2025/02/22 16:13

回复

本地知识库体验不是很好，好多文档信息出不来
相逢发布于： 2025/02/20 17:25

回复

笔记本能按这个配置装吗
wqdcs发布于： 2025/02/14 10:01

回复

显卡12G
wqdcs发布于： 2025/02/14 10:00

回复

没看懂，显卡要求都这么高吗？ i5-13400F，内存32.0 GB，显卡RTX3060，该装那个
- Vitamin_39发布于： 2025/02/24 14:46
  
  回复
  
  看显卡显存，3060应该应该是8g显存吧，估计7B8B模型就撑死了

可能最细！Deepseek 本地部署 + 本地知识库

1.1、项目简介

1.2、项目清单

1.3、项目总结

2.1、模型压缩

2.2、量化模型

2.3、蒸馏模型

2.4、方案选择

2.5、显卡选择

2.6、性能实测

3.1、客户端

3.2、安装方法

3.3、自定义下载

4.1、工作原理

4.2、添加嵌入模型

4.3、添加知识库

4.4、勾选知识库

最后

相关文章

哪个最好用？9 款主流视频大模型评测！

可能最全！文明之光 DeepSeek 使用指南（2025-02-19）

奶酪合租群

评论：

发表回复取消回复

1.1、项目简介

1.2、项目清单

1.3、项目总结

2.1、模型压缩

2.2、量化模型

2.3、蒸馏模型

2.4、方案选择

2.5、显卡选择

2.6、性能实测

3.1、客户端

3.2、安装方法

3.3、自定义下载

4.1、工作原理

4.2、添加嵌入模型

4.3、添加知识库

4.4、勾选知识库

最后

相关文章

哪个最好用？9 款主流视频大模型评测！

可能最全！文明之光 DeepSeek 使用指南（2025-02-19）

奶酪合租群

评论：

发表回复 取消回复

发表回复取消回复