可能最细!Deepseek 本地部署 + 本地知识库

感谢 DeepSeek 开源!
低成本 + 高性能,在本地离线部署大模型,还有搭建个人 AI 知识库的需求,从未如此高涨!
而本期内容,可能是全网最细的本地大模型部署教程。
1.1、项目简介
如果你从来没有尝试过在本地电脑部署离线大模型,那么本文将是你的“保姆级”教程。
而尝试部署本地大模型的意义,要远大于模型本身。
1.2、项目清单
模型选择 - 详细 |
|
---|---|
简介 | |
1、模型压缩 | 量化压缩,通过减低模型精度来压缩文件体积。 |
2、量化模型 | R1 671B 全量 720G,4-Bit 量化 404GB,1.58-Bit 动态量化 131G。 |
3、蒸馏模型 | 将大模型(老师模型))训练的知识迁移小模型(学生模型)。 |
4、方案选择 | 关键点:显卡的显存大小,要大于大模型的文件体积。 |
无显卡满血 R1:可以用 多核 CPU + 大内存,但速度会很慢。 | |
最便宜满血 R1:192GB Mac Studio + 1.58-Bit 动态量化版,价格 5万。 | |
N 卡 满血 R1:1.58-Bit 动态量化版,要 8 张 4090 显卡,至少 12 万。 | |
最性价比方案:Qwen-32B 4-Bit 量化版,一张 4090 显卡 即可带动。 | |
零门槛方案:随便一台电脑都可以跑 Qwen-1.5B,可用作“搜索引擎”。 | |
5、性能实测 | Qwen-32B 无疑是个人部署的最佳选择。 |
显卡选择 - 详细 |
|
---|---|
简介 | |
DeepSeek R1 | 8-bit 全量,720G 大小,safetensors 格式,需 8 张 H200(141G) |
Llama-70B | 16-bit 全量,150G 大小,safetensors 格式,需 7 张 4090(24G) |
Qwen-32B | 16-bit 全量,66G 大小,safetensors 格式,需 3 张 4090(24G) |
Qwen-14B | 16-bit 全量,30G 大小,safetensors 格式,需 2 张 4090(24G) |
Llama-8B | 16-bit 全量,16G 大小,safetensors 格式,需 1 张 4080(16G) |
Qwen-7B | 16-bit 全量,15G 大小,safetensors 格式,需 1 张 4080(16G) |
Qwen-1.5B | 16-bit 全量,3.5G 大小,safetensors 格式,需 1 张 4060(8G) |
特别说明: | 不推荐使用 Llama 模型,性能拉垮,“高耗能,但低性能”的代表。 |
简介 | |
4-bit 量化 | 671B 参数,404G 大小,GGUF 格式,需 8 张 H000(80G) |
1.58-bit 量化 | 671B 参数,131G 大小,GGUF 格式,需 8 张 4090(24G) |
特别说明: | Mac 电脑的话,只需要一台 192G 统一内存的 Mac Studio 即可。 |
简介 | |
Llama-70B | 4-bit 量化,43G 大小,GGUF 格式,需 2 张 4090(24G) |
Qwen-32B | 4-bit 量化,20G 大小,GGUF 格式,需 1 张 4090(24G) |
Qwen-14B | 4-bit 量化,9G 大小,GGUF 格式,需 1 张 4070(12G) |
Llama-8B | 4-bit 量化,4.9G 大小,GGUF 格式,需 1 张 4050(6G) |
Qwen-7B | 4-bit 量化,4.7G 大小,GGUF 格式,需 1 张 4050(6G) |
Qwen-1.5B | 4-bit 量化,1.1G 大小,GGUF 格式,无需显卡,手机也能用。 |
特别说明: | 不推荐使用 Llama 模型,性能拉垮,Qwen-32B 是最佳选择。 |
特别说明 2: | Mac 电脑的话,需要一台 64G 统一内存的 Mac Studio 即可。 |
本地部署客户端 - 详细 |
|
---|---|
简介 | |
服务端 + 客户端(命令行界面)推荐! 👍 | |
服务端 + 客户端(图形化界面) | |
服务端 + 客户端(图形化界面) | |
简介 | |
客户端(图形化界面)推荐! 👍 | |
客户端(图形化界面) | |
客户端(图形化界面)支持 Web 网页,也支持本地客户端。 | |
客户端(图形化界面) 支持 Web 网页,类似 ChatGPT。 | |
客户端(浏览器扩展)支持「联网搜索」。 |
|
简介 | |
手机客户端,可离线跑大模型,支持 iPhone,安卓。推荐! 👍 | |
手机客户端,可离线跑大模型,目前只支持安卓。 |
本地部署方法 - 详细 |
|
---|---|
简介 | |
如果下载慢,可以用镜像下载链接:Windows、Mac。 | |
https://ollama.com/library,终端输入 ollama run deepseek-r1:1.5b | |
阿里满速下载源:https://www.modelscope.cn/organization/unsloth | |
setx OLLAMA_MODELS "E:\Ollama\.ollama\models",要重启 Ollama | |
本地知识库 - 详细 |
|
简介 | |
利用“嵌入模型”将文档向量化后,以 RAG的方式嵌入到大模型里。 | |
安装开源嵌入模型: nomic-embed-text | |
点击 CherryStudio 左侧的“知识库”按钮来添加。 | |
在任意聊天窗口里,只需要勾选“知识库”,即可使用。 |
1.3、项目总结
本地部署大模型分两派:一派认为“不是满血,不值当”,另一派“能用就行,要什么自行车”。
而奶酪认为,这是一项“战未来”的技能。
你想想,DeepSeek 储存着人类所有的文明成果,再加上部署成本只会越来越低。
你今天不学,明天也得学。
在开始之前,你应该了解一下,你的电脑能跑什么样的大模型,尽管“是台电脑”都能跑。
2.1、模型压缩
首先,我们知道大模型的参数是以“浮点数”的形式储存,通常用 32 位来表示,也就是 FP32。
而在电脑里,1 个字节有 8 位。
所以,大模型的 1 个参数,在电脑里就需要 4 个字节。
671B 的大模型(6710 亿参数)也就是 26840 亿字节,二进制转换后大约是 2.4TB 大小。
这完全就是“天文数字”。
就像“图片压缩”一样,大模型也需要进行压缩。
最有效的方法,就是进行「量化压缩」,也就是减少大模型参数的精确度。
就好比我们用 “13 克 来代替 13.1克”,牺牲一些精度,但换来了效率。
如果用 16 位来表示浮点数,虽然精度降低了,但体积却减少了一半,同理,8 位则只有 1/4。
DeepSeek 开创性地使用了 8 位 “混合精度” 训练方法。
也就是大多数情况下用 FP8 精度,只有在需要和关键的时候,再用 FP16 或 FP32 精度。
这大大节省了计算资源,并最终的模型效果精度损失极小,几乎无损。
最终,671B 的大模型被压缩到了 720GB。
2.2、量化模型
但是,在本地跑 671B 全量(8 位)大模型至少要 720GB 内存(内存+显存),还是太大了。
于是,又有人推出了 4-bit 量化版(4 位),模型体积减少到了 404GB。
目前大部分的 DeepSeek 量化模型都是出自博主 unsloth.ai。
甚至,他还推出了 1.58-bit 动态量化版,也就是在关键的地方用 4-6bit,其它地方用 1-2bit。
最终,模型体积被压缩到了 131GB。
也就是说,可以在 1 台 Mac Studio(192G 统一内存) 上,就可以运行 R1 671B 大模型。
2.3、蒸馏模型
不过,对于普通用户来说, 131GB 的内存(或显存)还是太大了,于是就有了“模型蒸馏”。
模型蒸馏,就是将一个大模型(老师模型)训练的知识迁移到小模型(学生模型)。
在以减少“参数总量”的同时,保留大模型的核心性能。
比如 GPT-4o-mini 就属于 GPT-4o 的蒸馏模型。
DeepSeek 将 R1 的思维链数据,对 Qwen 和 Llama 模型进行蒸馏,并推出了多个版本。
包括了 1.5B、7B、8B、14B、32B、70B。
其中的 1.5B 版本,只要电脑不是“老爷机”,那么就可以跑起来。
值得一说的是,
根据 DeepSeek 官方发布的蒸馏模型评测,Llama-70B 模型的性价比非常低。
它用了 2 倍多的资源,却只与 Qwen-32B 打了个平手。
可见 Llama 大模型性能之差,换句话说,Qwen-32B 就是所有蒸馏版里的最佳选择。
2.4、方案选择
如何选择自己电脑能跑的大模型,关键点在于:显卡的显存大小,要大于大模型的文件体积。
Mac 电脑,则是“统一内存”要大于大模型的文件体积。
下面是常见方案。
1、无显卡 满血 R1
没有显卡,能不能跑呢?用“工作站电脑”是可以的,也就用「多核 CPU + 大内存」来实现。
因为用 Ollama 来部署本地大模型,它支持 CPU 和 GPU 的混合推理。
当显卡的显存不够用时,就调用电脑的内存来运行。
但问题是,CPU + 内存 没办法实现「高并发」和「高带宽」,就是能跑,但速度非常慢。
视频参考:https://www.bilibili.com/video/BV1REPqeFE6d
2、最便宜 满血 R1
目前而言,要想在个人电脑上跑 671B DeepSeek R1 大模型,最便宜的实现方案。
是买一台 Mac Studio(192GB 统一内存),价格大概 5 万元人民币。
然后选择 1.58-Bit 动态量化的版本。
不过,奶酪建议再等几个月,今年 6 月马上就会发布 M4 Ultra 芯片版 Mac Studio 了。
视频参考:https://www.bilibili.com/video/BV1BZF5e8Em3
3、N 卡 满血 R1
如果是 Windows 平台,在本地跑 R1 671B 4-Bit 大模型,官方的推荐是 8 张 H100 显卡。
价格至少需要 200万,即使是 1.58-Bit 动态量化版,也需要 3 张 H100 显卡。
价格至少需要 75万。
用 4090 显卡跑 1.58-Bit 动态量化版,也至少需要 8 张,单单显卡的价格就至少要 12 万。
更别说高功率导致的高电费了。
视频参考:https://www.bilibili.com/video/BV1BYFeeEExi
4、最性价比方案
如果你想在“个人电脑”上,部署一个本地大模型,最具性价比的方案,无疑是 Qwen-32B。
不推荐 Llama-70B,因为它用了 2 倍多的资源,却只与 Qwen-32B 打了个平手。
推荐 Qwen-32B 4-Bit 量化版。
显存只需要 20GB,一张 4090 显卡(24G 显存)即可带动,这也是个人能选择的最佳方案。
Mac 的话,只需要统一内存超过 64G 即可。
5、零门槛方案
事实上,只要不是 10 年以上的老掉牙电脑,随便一台电脑都可以跑 Qwen-1.5B 的版本。
8-Bit 全量版本大小 1.8GB,4-Bit 版本则只有 1GB。
运行时不需要显卡,虽然性能差不少,但它的速度仍然飞快,且包含了互联网上的所有知识。
当没有网络的时候,可以拿它来做“搜索引擎”。
甚是妙哉!
2.5、显卡选择
下面是模型与显卡的选择:
显卡选择 - 详细 |
|
---|---|
简介 | |
DeepSeek R1 | 8-bit 全量,720G 大小,safetensors 格式,需 8 张 H200(141G) |
Llama-70B | 16-bit 全量,150G 大小,safetensors 格式,需 7 张 4090(24G) |
Qwen-32B | 16-bit 全量,66G 大小,safetensors 格式,需 3 张 4090(24G) |
Qwen-14B | 16-bit 全量,30G 大小,safetensors 格式,需 2 张 4090(24G) |
Llama-8B | 16-bit 全量,16G 大小,safetensors 格式,需 1 张 4080(16G) |
Qwen-7B | 16-bit 全量,15G 大小,safetensors 格式,需 1 张 4080(16G) |
Qwen-1.5B | 16-bit 全量,3.5G 大小,safetensors 格式,需 1 张 4060(8G) |
特别说明: | 不推荐使用 Llama 模型,性能拉垮,“高耗能,但低性能”的代表。 |
简介 | |
4-bit 量化 | 671B 参数,404G 大小,GGUF 格式,需 8 张 H000(80G) |
1.58-bit 量化 | 671B 参数,131G 大小,GGUF 格式,需 8 张 4090(24G) |
特别说明: | Mac 电脑的话,只需要一台 192G 统一内存的 Mac Studio 即可。 |
简介 | |
Llama-70B | 4-bit 量化,43G 大小,GGUF 格式,需 2 张 4090(24G) |
Qwen-32B | 4-bit 量化,20G 大小,GGUF 格式,需 1 张 4090(24G) |
Qwen-14B | 4-bit 量化,9G 大小,GGUF 格式,需 1 张 4070(12G) |
Llama-8B | 4-bit 量化,4.9G 大小,GGUF 格式,需 1 张 4050(6G) |
Qwen-7B | 4-bit 量化,4.7G 大小,GGUF 格式,需 1 张 4050(6G) |
Qwen-1.5B | 4-bit 量化,1.1G 大小,GGUF 格式,无需显卡,手机也能用。 |
特别说明: | 不推荐使用 Llama 模型,性能拉垮,Qwen-32B 是最佳选择。 |
特别说明 2: | Mac 电脑的话,需要一台 64G 统一内存的 Mac Studio 即可。 |
2.6、性能实测
总结一下,首先排除 Llama 8B 和 70B 蒸馏模型,它们简直是“高耗能,但低性能”的代表。
1.5B 可以在任意电脑上部署,甚至手机上也可以。
看个人设备条件选择 7B、14B、32B,
而 Qwen-32B 无疑是最佳选择。
奶酪测试了一些“大模型智障检测”,在 Qwen-32B 蒸馏模型下,只有问题 2 时对,时不对。
1、9.11 和 9.8 谁大
2、strawberry 有几个 r
3、鲁讯为什么打周树人
4、西红柿炒钢丝球怎么做
5、生鱼片为什么是死鱼片
无论如何,你都应该学会本地部署大模型,那怕只有 1.5B,因为它是一项“战未来”的技能。
3.1、客户端
本地部署大模型,最方便的工具当属 Ollama。
Ollama 有服务端和客户端的功能,但客户端推荐 Cherry Studio,更方便。
手机端则推荐 PocketPal Al。
在手机上跑一个 1.5B 的大模型,还是绰绰有余的,甚至,安卓用户还可以考虑试试 7B 的。
本地部署客户端 - 详细 |
|
---|---|
简介 | |
服务端 + 客户端(命令行界面)推荐! 👍 | |
服务端 + 客户端(图形化界面) | |
服务端 + 客户端(图形化界面) | |
简介 | |
客户端(图形化界面)推荐! 👍 | |
客户端(图形化界面) | |
客户端(图形化界面)支持 Web 网页,也支持本地客户端。 | |
客户端(图形化界面) 支持 Web 网页,类似 ChatGPT。 | |
客户端(浏览器扩展)支持「联网搜索」。 |
|
简介 | |
手机客户端,可离线跑大模型,支持 iPhone,安卓。推荐! 👍 | |
手机客户端,可离线跑大模型,目前只支持安卓。 |
3.2、安装方法
首先,到 Ollama 官网下载安装包。如果下载慢,可以用镜像下载链接:Windows、Mac。
其次,Ollama 默认会安装在 C 盘。
想要安装在其它的盘,则要用命令来指定安装路径,比如 OllamaSetup.exe /dir=E:\Ollama
代码以安装在 E:\Ollama 为例,具体操作步骤如下。
安装好后,接着是 下载模型,在 Cmd 窗口 或者 终端,输入 ollama run deepseek-r1:1.5b
Ollama 就会自动下载,这里的 1.5b 可以修改为你想下载的版本。
代码命令,Windows 和 Mac 都是一样的。
下载时,如果速度变慢或者卡住不动了。
在窗口里按一下 Ctrl+C 取消下载,然后再次输入代码,就会重新下载,进度不会丢失。
3.3、自定义下载
但不出意外,模型下载的速度会非常的慢,那么可以换用国内的阿里魔搭社区,可满速下载。
推荐模型:https://www.modelscope.cn/organization/unsloth
下载代码:ollama run modelscope.cn/模型 ID
同样,如果你想下载 HuggingFace 上的模型,比如 Qwen-32B-abliterated 被称为“越狱版”。
下载方法,同样也是复制模型 ID,然后粘贴下载。
下载代码:ollama run hf.co/模型 ID
需要注意的是。
Ollama 存储模型的位置也是在 C 盘,你可以在 Cmd 窗口输入下面这条代码来修改,比如:
setx OLLAMA_MODELS "E:\Ollama\.ollama\models"
特别需要注意的是,设置好后,一定要退出 Ollama,重启一下 Ollama 才会生效。
接着,在命令行里输入 ollama list,即可查看已下载的模型。
最后,你还可以将之前下载过的模型,移动到新的目录来,比如我安装在了 E:\Ollama
只需要将默认位置的整个 .ollama 文件夹,复制过来即可。
这也是之前把模型储存位置修改为 E:\Ollama\.ollama\models 的原因,直接一键复制即可。
#默认安装位置:
macOS: ~/.ollama/models
Windows: C:\Users\%username%\.ollama\models
CherryStudio 同时还支持本地知识库部署,它可以很方便的帮助你搭建个人 AI 知识库。
4.1、工作原理
本地知识库的工作原理。
就是利用“嵌入模型”将文档向量化后,以 RAG(检索增强生成)的方式嵌入到大模型里。
当用户询问某个关键字时,大模型就会优先以文档内容为准来做输出。
比如我们将网梗“罗永浩买星巴克咖啡”加入到知识库后。
问大模型“罗老师要的是什么杯”?
大模型会告诉你“中杯”,而如果没有本地知识库,那么大模型就会“自由发挥、胡编乱造”了。
4.2、添加嵌入模型
本地用的开源嵌入模型,有一个叫 nomic-embed-text 的嵌入模型,文件大小 274M。
在 Cmd 窗口 或者 终端上输入 ollama pull nomic-embed-text,即可下载。
模型链接:https://ollama.com/library/nomic-embed-text
下载完成后, Cherry Stuido 的 Ollama 选项里,就会出现它的选项,把它勾选上即可。
4.3、添加知识库
点击 CherryStudio 左侧的“知识库”按钮,分别“输入知识库名称”和“选择嵌入模型”。
然后,将你需要添加的“文档或者文件夹”添加到知识库,等待它向量化完成。
4.4、勾选知识库
最后,在任意聊天窗口里,只需要“勾选知识库”,那么本地知识库就能嵌入到大模型里。
待更新...
最后
- 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 A03 就可获取对应的资源。
- 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
- 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。


联想Y9000P,i9-12900H,16G内存,3060 6GB,跑qwen 7B很流畅,就是回答不靠谱,上传的知识库答非所问,何解?
本地知识库体验不是很好,好多文档信息出不来
笔记本能按这个配置装吗
显卡12G
没看懂,显卡 要求都这么高吗? i5-13400F,内存32.0 GB,显卡RTX3060,该装那个
看显卡显存,3060应该应该是8g显存吧,估计7B8B模型就撑死了