奔跑中的奶酪

可能最细!Deepseek 本地部署 + 本地知识库


可能最细!Deepseek 本地部署 + 本地知识库

感谢 DeepSeek 开源!

低成本 + 高性能,在本地离线部署大模型,还有搭建个人 AI 知识库的需求,从未如此高涨!

而本期内容,可能是全网最细的本地大模型部署教程。

1.1、项目简介

如果你从来没有尝试过在本地电脑部署离线大模型,那么本文将是你的“保姆级”教程。

而尝试部署本地大模型的意义,要远大于模型本身。

1.2、项目清单

 模型选择 - 详细

 模型选择 简介
1、模型压缩 量化压缩,通过减低模型精度来压缩文件体积。
2、量化模型 R1 671B 全量 720G,4-Bit 量化 404GB,1.58-Bit 动态量化 131G。
3、蒸馏模型 将大模型(老师模型))训练的知识迁移小模型(学生模型)。
4、方案选择 关键点:显卡的显存大小,要大于大模型的文件体积
 无显卡 无显卡满血 R1:可以用 多核 CPU + 大内存,但速度会很慢。
 最便宜 最便宜满血 R1:192GB Mac Studio + 1.58-Bit 动态量化版,价格 5万。
 N 卡 N 卡 满血 R1:1.58-Bit 动态量化版,要 8 张 4090 显卡,至少 12 万。
 性价比 最性价比方案:Qwen-32B 4-Bit 量化版,一张 4090 显卡 即可带动。
 零门槛 零门槛方案:随便一台电脑都可以跑 Qwen-1.5B,可用作“搜索引擎”。
5、性能实测 Qwen-32B 无疑是个人部署的最佳选择。

 显卡选择 - 详细

 官方满血版 简介
DeepSeek R1 8-bit 全量,720G 大小,safetensors 格式,需 8 张 H200(141G)
Llama-70B 16-bit 全量,150G 大小,safetensors 格式,需 7 张 4090(24G)
Qwen-32B 16-bit 全量,66G 大小,safetensors 格式,需 3 张 4090(24G)
Qwen-14B 16-bit 全量,30G 大小,safetensors 格式,需 2 张 4090(24G)
Llama-8B 16-bit 全量,16G 大小,safetensors 格式,需 1 张 4080(16G)
Qwen-7B 16-bit 全量,15G 大小,safetensors 格式,需 1 张 4080(16G)
Qwen-1.5B 16-bit 全量,3.5G 大小,safetensors 格式,需 1 张 4060(8G)
特别说明: 不推荐使用 Llama 模型,性能拉垮,“高耗能,但低性能”的代表。
 量化版 简介
4-bit 量化 671B 参数,404G 大小,GGUF 格式,需 8 张 H000(80G)
1.58-bit 量化 671B 参数,131G 大小,GGUF 格式,需 8 张 4090(24G)
特别说明: Mac 电脑的话,只需要一台 192G 统一内存的 Mac Studio 即可。
 蒸馏量化版 简介
Llama-70B 4-bit 量化,43G 大小,GGUF 格式,需 2 张 4090(24G)
Qwen-32B 4-bit 量化,20G 大小,GGUF 格式,需 1 张 4090(24G)
Qwen-14B 4-bit 量化,9G 大小,GGUF 格式,需 1 张 4070(12G)
Llama-8B 4-bit 量化,4.9G 大小,GGUF 格式,需 1 张 4050(6G)
Qwen-7B 4-bit 量化,4.7G 大小,GGUF 格式,需 1 张 4050(6G)
Qwen-1.5B 4-bit 量化,1.1G 大小,GGUF 格式,无需显卡,手机也能用。
特别说明: 不推荐使用 Llama 模型,性能拉垮,Qwen-32B 是最佳选择。
特别说明 2: Mac 电脑的话,需要一台 64G 统一内存的 Mac Studio 即可。

 本地部署客户端 - 详细

 本地客户端 简介
 Ollama 服务端 + 客户端(命令行界面)推荐! 👍
 LM Studio 服务端 + 客户端(图形化界面)
 GPT4ALL 服务端 + 客户端(图形化界面)
 仅客户端 简介
 Cherry Studio 客户端(图形化界面)推荐! 👍
 AnythingLLM 客户端(图形化界面)
 Chatbox 客户端(图形化界面)支持 Web 网页,也支持本地客户端。
 Open WebUI 客户端(图形化界面) 支持 Web 网页,类似 ChatGPT。
 Page Assist 客户端(浏览器扩展)支持「联网搜索」。 本地下载
 手机客户端 简介
 PocketPal Al 手机客户端,可离线跑大模型,支持 iPhone安卓。推荐! 👍
 ChatterUI 手机客户端,可离线跑大模型,目前只支持安卓。

 本地部署方法 - 详细

 安装方法 简介
 Ollama 如果下载慢,可以用镜像下载链接:WindowsMac
 模型下载 https://ollama.com/library,终端输入 ollama run deepseek-r1:1.5b
 自定义下载 阿里满速下载源:https://www.modelscope.cn/organization/unsloth
 储存位置 setx OLLAMA_MODELS "E:\Ollama\.ollama\models",要重启 Ollama

 本地知识库 - 详细

 安装方法 简介
 工作原理 利用“嵌入模型”将文档向量化后,以 RAG的方式嵌入到大模型里。
 嵌入模型 安装开源嵌入模型nomic-embed-text
 添加知识库 点击 CherryStudio 左侧的“知识库”按钮来添加。
 使用知识库 在任意聊天窗口里,只需要勾选“知识库”,即可使用。

1.3、项目总结

本地部署大模型分两派:一派认为“不是满血,不值当”,另一派“能用就行,要什么自行车”。

而奶酪认为,这是一项“战未来”的技能。

你想想,DeepSeek 储存着人类所有的文明成果,再加上部署成本只会越来越低。

你今天不学,明天也得学。

在开始之前,你应该了解一下,你的电脑能跑什么样的大模型,尽管“是台电脑”都能跑。

2.1、模型压缩

首先,我们知道大模型的参数是以“浮点数”的形式储存,通常用 32 位来表示,也就是 FP32

而在电脑里,1 个字节有 8 位

所以,大模型的 1 个参数,在电脑里就需要 4 个字节。

671B 的大模型(6710 亿参数)也就是 26840 亿字节,二进制转换后大约是 2.4TB 大小。

这完全就是“天文数字”。

就像“图片压缩”一样,大模型也需要进行压缩。

最有效的方法,就是进行「量化压缩」,也就是减少大模型参数的精确度

A03_模型压缩

就好比我们用 “13 克 来代替 13.1克”,牺牲一些精度,但换来了效率。

如果用 16 位来表示浮点数,虽然精度降低了,但体积却减少了一半,同理,8 位则只有 1/4。

DeepSeek 开创性地使用了 8 位 “混合精度” 训练方法。

也就是大多数情况下用 FP8 精度,只有在需要和关键的时候,再用 FP16FP32 精度。

这大大节省了计算资源,并最终的模型效果精度损失极小,几乎无损。

最终,671B 的大模型被压缩到了 720GB

2.2、量化模型

但是,在本地跑 671B 全量(8 位)大模型至少要 720GB 内存(内存+显存),还是太大了。

于是,又有人推出了 4-bit 量化版(4 位),模型体积减少到了 404GB

目前大部分的 DeepSeek 量化模型都是出自博主 unsloth.ai

甚至,他还推出了 1.58-bit 动态量化版,也就是在关键的地方用 4-6bit,其它地方用 1-2bit

最终,模型体积被压缩到了 131GB

也就是说,可以在 1 台 Mac Studio(192G 统一内存 上,就可以运行 R1 671B 大模型。

A03_量化模型

2.3、蒸馏模型

不过,对于普通用户来说, 131GB 的内存(或显存)还是太大了,于是就有了“模型蒸馏”

模型蒸馏,就是将一个大模型(老师模型)训练的知识迁移到小模型(学生模型)。

在以减少“参数总量”的同时,保留大模型的核心性能。

比如 GPT-4o-mini 就属于 GPT-4o 的蒸馏模型。

A03_模型蒸馏

DeepSeek 将 R1 的思维链数据,对 Qwen 和 Llama 模型进行蒸馏,并推出了多个版本。

包括了 1.5B、7B、8B、14B、32B、70B。

其中的 1.5B 版本,只要电脑不是“老爷机”,那么就可以跑起来。

A03_模型蒸馏2

值得一说的是,

根据 DeepSeek 官方发布的蒸馏模型评测,Llama-70B 模型的性价比非常低。

它用了 2 倍多的资源,却只与 Qwen-32B 打了个平手。

可见 Llama 大模型性能之差,换句话说,Qwen-32B 就是所有蒸馏版里的最佳选择。

2.4、方案选择

如何选择自己电脑能跑的大模型,关键点在于:显卡的显存大小,要大于大模型的文件体积

Mac 电脑,则是“统一内存”要大于大模型的文件体积。

下面是常见方案。

1、无显卡 满血 R1

没有显卡,能不能跑呢?用“工作站电脑”是可以的,也就用「多核 CPU + 大内存」来实现。

因为用 Ollama 来部署本地大模型,它支持 CPU 和 GPU 的混合推理

当显卡的显存不够用时,就调用电脑的内存来运行。

但问题是,CPU + 内存 没办法实现「高并发」和「高带宽」,就是能跑,但速度非常慢。

视频参考:https://www.bilibili.com/video/BV1REPqeFE6d

2、最便宜 满血 R1

目前而言,要想在个人电脑上跑 671B DeepSeek R1 大模型,最便宜的实现方案。

是买一台 Mac Studio(192GB 统一内存),价格大概 5 万元人民币

然后选择 1.58-Bit 动态量化的版本。

不过,奶酪建议再等几个月,今年 6 月马上就会发布 M4 Ultra 芯片版 Mac Studio 了。

视频参考:https://www.bilibili.com/video/BV1BZF5e8Em3

3、N 卡 满血 R1

如果是 Windows 平台,在本地跑 R1 671B 4-Bit 大模型,官方的推荐是 8 张 H100 显卡。

价格至少需要 200万,即使是 1.58-Bit 动态量化版,也需要 3 张 H100 显卡。

价格至少需要 75万

用 4090 显卡跑 1.58-Bit 动态量化版,也至少需要 8 张,单单显卡的价格就至少要 12 万

更别说高功率导致的高电费了。

视频参考:https://www.bilibili.com/video/BV1BYFeeEExi

4、最性价比方案

如果你想在“个人电脑”上,部署一个本地大模型,最具性价比的方案,无疑是 Qwen-32B

不推荐 Llama-70B,因为它用了 2 倍多的资源,却只与 Qwen-32B 打了个平手。

推荐 Qwen-32B 4-Bit 量化版。

显存只需要 20GB,一张 4090 显卡(24G 显存)即可带动,这也是个人能选择的最佳方案。

Mac 的话,只需要统一内存超过 64G 即可。

5、零门槛方案

事实上,只要不是 10 年以上的老掉牙电脑,随便一台电脑都可以跑 Qwen-1.5B 的版本。

8-Bit 全量版本大小 1.8GB4-Bit 版本则只有 1GB

运行时不需要显卡,虽然性能差不少,但它的速度仍然飞快,且包含了互联网上的所有知识。

当没有网络的时候,可以拿它来做“搜索引擎”。

甚是妙哉!

2.5、显卡选择

下面是模型与显卡的选择:

 显卡选择 - 详细

 官方满血版 简介
DeepSeek R1 8-bit 全量,720G 大小,safetensors 格式,需 8 张 H200(141G)
Llama-70B 16-bit 全量,150G 大小,safetensors 格式,需 7 张 4090(24G)
Qwen-32B 16-bit 全量,66G 大小,safetensors 格式,需 3 张 4090(24G)
Qwen-14B 16-bit 全量,30G 大小,safetensors 格式,需 2 张 4090(24G)
Llama-8B 16-bit 全量,16G 大小,safetensors 格式,需 1 张 4080(16G)
Qwen-7B 16-bit 全量,15G 大小,safetensors 格式,需 1 张 4080(16G)
Qwen-1.5B 16-bit 全量,3.5G 大小,safetensors 格式,需 1 张 4060(8G)
特别说明: 不推荐使用 Llama 模型,性能拉垮,“高耗能,但低性能”的代表。
 量化版 简介
4-bit 量化 671B 参数,404G 大小,GGUF 格式,需 8 张 H000(80G)
1.58-bit 量化 671B 参数,131G 大小,GGUF 格式,需 8 张 4090(24G)
特别说明: Mac 电脑的话,只需要一台 192G 统一内存的 Mac Studio 即可。
 蒸馏量化版 简介
Llama-70B 4-bit 量化,43G 大小,GGUF 格式,需 2 张 4090(24G)
Qwen-32B 4-bit 量化,20G 大小,GGUF 格式,需 1 张 4090(24G)
Qwen-14B 4-bit 量化,9G 大小,GGUF 格式,需 1 张 4070(12G)
Llama-8B 4-bit 量化,4.9G 大小,GGUF 格式,需 1 张 4050(6G)
Qwen-7B 4-bit 量化,4.7G 大小,GGUF 格式,需 1 张 4050(6G)
Qwen-1.5B 4-bit 量化,1.1G 大小,GGUF 格式,无需显卡,手机也能用。
特别说明: 不推荐使用 Llama 模型,性能拉垮,Qwen-32B 是最佳选择。
特别说明 2: Mac 电脑的话,需要一台 64G 统一内存的 Mac Studio 即可。

2.6、性能实测

总结一下,首先排除 Llama 8B 和 70B 蒸馏模型,它们简直是“高耗能,但低性能”的代表。

1.5B 可以在任意电脑上部署,甚至手机上也可以。

看个人设备条件选择 7B、14B、32B,

Qwen-32B 无疑是最佳选择。

奶酪测试了一些“大模型智障检测”,在 Qwen-32B 蒸馏模型下,只有问题 2 时对,时不对

1、9.11 和 9.8 谁大

2、strawberry 有几个 r

3、鲁讯为什么打周树人

4、西红柿炒钢丝球怎么做

5、生鱼片为什么是死鱼片

A03_性能测试

无论如何,你都应该学会本地部署大模型,那怕只有 1.5B,因为它是一项“战未来”的技能。

3.1、客户端

本地部署大模型,最方便的工具当属 Ollama

Ollama 有服务端和客户端的功能,但客户端推荐 Cherry Studio,更方便。

手机端则推荐 PocketPal Al

在手机上跑一个 1.5B 的大模型,还是绰绰有余的,甚至,安卓用户还可以考虑试试 7B 的。

 本地部署客户端 - 详细

 本地客户端 简介
 Ollama 服务端 + 客户端(命令行界面)推荐! 👍
 LM Studio 服务端 + 客户端(图形化界面)
 GPT4ALL 服务端 + 客户端(图形化界面)
 仅客户端 简介
 Cherry Studio 客户端(图形化界面)推荐! 👍
 AnythingLLM 客户端(图形化界面)
 Chatbox 客户端(图形化界面)支持 Web 网页,也支持本地客户端。
 Open WebUI 客户端(图形化界面) 支持 Web 网页,类似 ChatGPT。
 Page Assist 客户端(浏览器扩展)支持「联网搜索」。 本地下载
 手机客户端 简介
 PocketPal Al 手机客户端,可离线跑大模型,支持 iPhone安卓。推荐! 👍
 ChatterUI 手机客户端,可离线跑大模型,目前只支持安卓。

3.2、安装方法

首先,到 Ollama 官网下载安装包。如果下载慢,可以用镜像下载链接:WindowsMac

其次,Ollama 默认会安装在 C 盘。

想要安装在其它的盘,则要用命令来指定安装路径,比如 OllamaSetup.exe /dir=E:\Ollama

代码以安装在 E:\Ollama 为例,具体操作步骤如下。

A03_安装Ollama

安装好后,接着是 下载模型,在 Cmd 窗口 或者 终端,输入 ollama run deepseek-r1:1.5b

Ollama 就会自动下载,这里的 1.5b 可以修改为你想下载的版本。

代码命令,Windows 和 Mac 都是一样的

A03_下载模型

下载时,如果速度变慢或者卡住不动了。

在窗口里按一下 Ctrl+C 取消下载,然后再次输入代码,就会重新下载,进度不会丢失。

3.3、自定义下载

但不出意外,模型下载的速度会非常的慢,那么可以换用国内的阿里魔搭社区,可满速下载。

推荐模型:https://www.modelscope.cn/organization/unsloth

下载代码:ollama run modelscope.cn/模型 ID

A03_镜像下载

同样,如果你想下载 HuggingFace 上的模型,比如 Qwen-32B-abliterated 被称为“越狱版”。

下载方法,同样也是复制模型 ID,然后粘贴下载。

下载代码:ollama run hf.co/模型 ID

A03_镜像下载2

需要注意的是。

Ollama 存储模型的位置也是在 C 盘,你可以在 Cmd 窗口输入下面这条代码来修改,比如:

setx OLLAMA_MODELS "E:\Ollama\.ollama\models"

特别需要注意的是,设置好后,一定要退出 Ollama,重启一下 Ollama 才会生效

接着,在命令行里输入 ollama list,即可查看已下载的模型。

A03_镜像下载3

最后,你还可以将之前下载过的模型,移动到新的目录来,比如我安装在了 E:\Ollama

只需要将默认位置的整个 .ollama 文件夹,复制过来即可。

这也是之前把模型储存位置修改为 E:\Ollama\.ollama\models 的原因,直接一键复制即可

#默认安装位置:
macOS: ~/.ollama/models
Windows: C:\Users\%username%\.ollama\models

A03_镜像下载4

CherryStudio 同时还支持本地知识库部署,它可以很方便的帮助你搭建个人 AI 知识库。

4.1、工作原理

本地知识库的工作原理。

就是利用“嵌入模型”将文档向量化后,以 RAG(检索增强生成)的方式嵌入到大模型里。

当用户询问某个关键字时,大模型就会优先以文档内容为准来做输出。

比如我们将网梗“罗永浩买星巴克咖啡”加入到知识库后。

问大模型“罗老师要的是什么杯”?

大模型会告诉你“中杯”,而如果没有本地知识库,那么大模型就会“自由发挥、胡编乱造”了。

A02_本地知识库

4.2、添加嵌入模型

本地用的开源嵌入模型,有一个叫 nomic-embed-text 的嵌入模型,文件大小 274M

Cmd 窗口 或者 终端上输入 ollama pull nomic-embed-text,即可下载。

模型链接:https://ollama.com/library/nomic-embed-text

A03_嵌入模型2

下载完成后, Cherry StuidoOllama 选项里,就会出现它的选项,把它勾选上即可。

A03_嵌入模型

4.3、添加知识库

点击 CherryStudio 左侧的“知识库”按钮,分别“输入知识库名称”和“选择嵌入模型”。

A03_嵌入模型4

然后,将你需要添加的“文档或者文件夹”添加到知识库,等待它向量化完成。

A02_本地知识库4

4.4、勾选知识库

最后,在任意聊天窗口里,只需要“勾选知识库”,那么本地知识库就能嵌入到大模型里。

A03_嵌入模型3

待更新...



最后

  1. 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 A03 就可获取对应的资源。
  2. 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
  3. 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。
版权声明:本文由作者 奔跑中的奶酪 发布,版权归作者所有,如需转载,请署名作者并标记内容来源。
68
章鱼avatar

评论:

6 条评论,访客:0 条,站长:0 条
  1. AB
    AB发布于: 

    联想Y9000P,i9-12900H,16G内存,3060 6GB,跑qwen 7B很流畅,就是回答不靠谱,上传的知识库答非所问,何解?

  2. qianyu
    qianyu发布于: 

    本地知识库体验不是很好,好多文档信息出不来

  3. 相逢
    相逢发布于: 

    笔记本能按这个配置装吗

  4. wqdcs
    wqdcs发布于: 

    显卡12G

  5. wqdcs
    wqdcs发布于: 

    没看懂,显卡 要求都这么高吗? i5-13400F,内存32.0 GB,显卡RTX3060,该装那个

    • avatar
      Vitamin_39发布于: 

      看显卡显存,3060应该应该是8g显存吧,估计7B8B模型就撑死了

发表回复