1 前言
这两天deepseek大火,试用了一下确实很牛。尤其是它的推理过程十分符合我逻辑思维,甚至比我的思路更清晰明了,最后给出的结果也十分合理。整体使用下来发现它很能拓展我做事的思路,给予我做决策更多数据及逻辑支撑。
给出一个评价的话,感觉满血版的deep seek的定位更像古代的谋士。遇到疑难事情时,可以通过聊天来分析整件事情的前因后果,最终给出几个不错的决策供你选择。对于我这种技术宅来说,拥有它相当于决策时有了一个知晓上下五千年知识的人给出参考意见。通过问答找出几条可行的方案供自己选择,结合自己的人生阅历足可以让自己做事时有一个较好的行动纲领和基础。
借用知乎博主的一句话:
deep seek的核心价值就是它的思考过程;思考过程是启发和补全,比结果更重要。
2 前置工作
2.1 硬件信息
如下是官方文档中对部署大模型的硬件需求,按模型规模和平台分类,提供最低配置和推荐配置:
1.5B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – CPU: Intel i5 / Ryzen 5 | – CPU: Intel i7 / Ryzen 7 |
– RAM: 8GB | – RAM: 16GB | |
– GPU: NVIDIA GTX 1650 (4GB) | – GPU: RTX 3060 (12GB) | |
macOS | – M1/M2 芯片(8GB 统一内存) | – M1 Pro/Max 或 M3 芯片(16GB+) |
Linux | – CPU: 4 核 | – CPU: 8 核 |
– RAM: 8GB | – RAM: 16GB | |
– GPU: NVIDIA T4 (16GB) | – GPU: RTX 3090 (24GB) |
7B/8B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – CPU: Intel i7 / Ryzen 7 | – CPU: Intel i9 / Ryzen 9 |
– RAM: 16GB | – RAM: 32GB | |
– GPU: RTX 3060 (12GB) | – GPU: RTX 4090 (24GB) | |
macOS | – M2 Pro/Max(32GB 统一内存) | – M3 Max(64GB+ 统一内存) |
Linux | – CPU: 8 核 | – CPU: 12 核 |
– RAM: 32GB | – RAM: 64GB | |
– GPU: RTX 3090 (24GB) | – 多卡(如 2x RTX 4090) |
14B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – GPU: RTX 3090 (24GB) | – GPU: RTX 4090 + 量化优化 |
– RAM: 32GB | – RAM: 64GB | |
macOS | – M3 Max(64GB+ 统一内存) | – 仅限量化版本,性能受限 |
Linux | – GPU: 2x RTX 3090(通过 NVLink) | – 多卡(如 2x RTX 4090 48GB) |
– RAM: 64GB | – RAM: 128GB |
32B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – 不推荐(显存不足) | – 需企业级 GPU(如 RTX 6000 Ada) |
macOS | – 无法本地部署(硬件限制) | – 云 API 调用 |
Linux | – GPU: 4x RTX 4090(48GB 显存) | – 专业卡(如 NVIDIA A100 80GB) |
– RAM: 128GB | – RAM: 256GB + PCIe 4.0 SSD |
(注:这是原生模型,后面我们部署的大模型都是ollama蒸馏后的精简模型,实际部署硬件需求没那么高。)
如下是我的电脑硬件情况。实际配置时,发现其实部署要求没有想象中的那么高,逐个模型部署后发现我的硬件配置能流畅运行14b大模型,如果对时间效率没那么高的要求,我这套配置也足以运行32b模型。
(注意:因为内存一共就32G,浏览器是占内存大户,一旦网页开多了,32B模型直接内存不足跑不起来了。)
电脑型号 微星 MS-7E01
操作系统 Windows 11 专业版 (64位)
CPU 英特尔 13th Gen Core i5-13600K 一十四核
主板 微星 MAG B760M MORTAR WIFI DDR4 (MS-7E01)
内存 32GB(2667 MHz / 2667 MHz)
主硬盘 1000 GB (西部数据_BLACK SN770 1TB)
显卡 英特尔 UHD Graphics 770 (128 MB)
显卡2名称 NVIDIA GeForce RTX 4070 Ti
厂商 英伟达
芯片制造商 英伟达
大小 12282 MB
内核名称 NVIDIA GeForce RTX 4070 Ti
驱动版本 32.0.15.6094
2.2 方案选择
由于deep seek太火了,以至于B站搜相关教程一搜一大把。但总结起来无非就两种,一种是专业版,一种是图个新鲜的玩客版。
首先说专业版方案,我只是大概了解了一下,优点是这种部署的模型可以微调优化,可以得到一个更贴合自己实际需求的大模型。缺点是需要训练、对硬件要求极高、需要自己配置环境、需要学习相关的知识;综合下来外行想搞个自己的大模型需要极大的门槛,没个几星期不能玩转下来。
玩客版方案就简单了,下载一个开源的ollama即可部署成功能用的大模型,完全是有手就行。后面其他操作都是为了满足个性化需求做的配置。至于贴合自己需求的大模型,解决方案是搭建自己专业的知识库;通过嵌入模型解析上传的专业资料,让大模型学习足够多的专业新知识,可以让它在回答这个专业的问题时会更智能更专业。
这里重点说一下,我所有的方案都是基于windows11环境搭建的。至于为啥不用linux系统,首先高性能的linux系统服务器一般是公司和学校才有的。其次为了部署模型专门把我的电脑重装成Linux系统也不现实,至于基于VMware虚拟平台搭建linux虚拟机,它的性能上限就是我的台式机,所以直接在windows环境下部署模型是最优解。
综上所述,经过这几天的折腾,我的本地部署最终方案是:
windows11+deepseek-32B模型+ollama+ragflow
3 搭建基础框架及多种部署方案
3.1 下载ollama模型及部署本地大模型
上文说了本地部署的基石就是ollama,所以首先下载ollama软件(点我去官网)。
首先去官网点击下载;
跳转页面,选择自己的系统下载ollama;
安装软件;
(注意:因为ollama默认安装到c盘,同时模型也默认下载到c盘,模型一般几个G起步,所以要保留足够的内存,如果不想安装下载到C盘。也可以百度相关教程转移下载的模型。)
在官方页面选择models,进入下载模型下载页面;
复制下载命令;
打开windows自带终端,等待模型下载完成,自动运行模型。
(注意:ollama没有桌面版,所以在终端能执行ollama相关的命令就证明安装成功了。)
3.2 基于ollama+cherry studio/chatbox的聊天模型搭建
我没使用过这俩软件,只是简单借用这俩软件链接大模型,让大模型问答时有个交互界面。
3.2.1 配置cherry studio搭建聊天室
进入官网下载模型(点我去官网);
配置链接大模型,ip和端口参数都是默认填充的不用改;
配置完成,聊天使用效果如下。
3.2.2 配置chatbox搭建聊天室
进入官网下载模型(点我去官网);
配置链接大模型,ip和端口参数都是默认填充的不用改;
配置完成,聊天使用效果如下。
3.2.3 小结
只是简单尝试的话,这俩方案搭建十分简单轻松。深入使用我这边没有研究过,作为软件本身肯定有更多功能可以拓展,有需求的可以深入研究。
3.3 基于ollama+anythingllm的知识库搭建方案
进入官网下载模型(点我去官网);
配置模型,开启聊天窗口;
这个软件我用的比上面的熟悉,所以在这个基础上又下载了嵌入模型,用于搭建个人知识库;
这里介绍一下知识库的作用:原生大模型可以类比为一个普通人,在回答你的问题时,它只会借鉴自己以往学习过的知识,如果没有学习过,那它的答案可能比较一般甚至会说谎。而知识库就是让大模型先学习你上传到知识库里的文档后再回答,你上传的文档越多越专业,模型回答的就越好越专业。
在ollama中下载嵌入模型;
在终端中执行下载命令;
在anything中配置嵌入模型;
上传并解析文档,将文档移动到工作区;
如下是使用嵌入模型后,anything环境下大模型给出的回答,感觉有作用,但明显不及chatgpt免费版的回答。
3.4 基于ollama+regflow的终极方案
因为在b站看了"堂吉诃德拉曼查的英豪"这位小姐姐的教程,觉得她的方案讲的最彻底,最实用,也最符合我的日常使用习惯,所以选定她的方案作为我的最终方案。同时她的方案也是最麻烦的方案,新手小白谨慎尝试,因为有可能倒在搭建环境那步。
3.4.1 安装regflow
首先去github上下载安装包,不会科学上网的,就上gitee下载源代码(点我去官网)。直接下载zip版源码,解压到合适的硬盘位置;
进入目录选择docker文件夹,找到配置文件;
根据注释选择下载附带嵌入模型的regflow版本,这样docker下载时会下载9G那个版本的redflow;
在gitee上找到下载命令,在安装docker后执行该命令下载嵌入模型;
3.4.2 安装docker
曾经的我是个装货,对于docker不屑一顾;觉得搭建环境才是最有意思的过程,基于此整个博客就是我一点点搭建起来的。但用过docker以后,发现原来docker这么好用,还费啥劲搞环境啊。原有各种软件版本不兼容导致的问题全都不存在了,由此节省的时间多玩两分钟手机不香吗。
首先下载docker,国内进docker的官网可能费点劲,多试几次就好了(点我去官网);
下载安装docker后,不用注册直接选other进主页面。然后在网上找最新的源地址进行配置,否则官方默认的下载源都是国外的,除非科学上网,不然等待你的只有下载失败;
注意代码有格式要求,我这是最新的源加正确的格式,有需要直接复制;
{
"builder": {
"gc": {
"defaultKeepStorage": "20GB",
"enabled": true
}
},
"experimental": false,
"registry-mirrors": [
"https://hub.rat.dev",
"https://docker.m.daocloud.io",
"https://docker.1panel.live/",
"https://docker.hpcloud.cloud",
"https://docker.m.daocloud.io",
"https://docker.unsee.tech",
"https://docker.1panel.live",
"http://mirrors.ustc.edu.cn",
"https://docker.chenby.cn",
"http://mirror.azure.cn",
"https://dockerpull.org",
"https://dockerhub.icu",
"https://hub.rat.dev"
]
}
如下执行上一节复制好的命令,docker会自动下载配置运行regflow所需的的基础软件环境了(太方便了),不然光选择配置安装mysql等软件就足够卡人一天时间了。
cd ragflow
docker compose -f docker-compose.yml up -d
(注意:执行docker命令的目录位置,我这里把下载的zip解压到了F盘,所以执行命令的位置是F:\RAGFlow-main;还有如果不知道终端怎么进入F盘,直接如下图,在RAGFlow-main目录下,搜索栏里输入cmd即可进入终端)
源没问题的话,等待一段时间就会下载成功。因为我的网卡,所以下载时间特别慢,花了2个多小时。所以保险起见,最好挑个晚上睡觉的时间慢慢下载。
3.4.3 配置regflow运行环境
安装运行docker无误后,直接在浏览器上输入localhost:80,进入regflow的主页面。然后注册账号,进入主界面;
选择ollama,链接到自己下载的deepseek-32b模型;
这里遇到了问题,报111的错误,导致链接不上模型;
我尝试了网上的多个方法,最后把ip换成了dock的就解决了;
http://host.docker.internal:11434
配置自己的本地知识库;
上传文件检验效果;
结果如下,32b模型结合本地知识库回答效果还是挺不错;
至此regflow就配置完成了。
3.5 小结
我在尝试过主流部署方案后,发现只是简单部署个大模型聊天使用的话,几个方案都大同小异。但加持知识库后regflow方案的优点就凸显出来了,而且它的GUI交互界面是基于网页实现的,所以它作为一个家庭或者小群体的使用方案就很棒;因为配置上局域网后,手机电脑都能轻松访问。
另外关于嵌入模型,我在实际使用时,发现不同的嵌入模型还是有很大差异的。实测对比nomic-embed-text-:latest嵌入模型和regflow自带的默认嵌入模型,发现regflow附带的嵌入模型明显更好些。
4 搭建遇到的问题
4.1 regflow链接大模型时,报111错误码。
RAGFlow“提示 : 102 Fail to access model(qwen2.5:14b).**ERROR**: [Errno 111] Connection refused” 的解决
我查询到这个错误的原因是docker本身搭建的虚拟环境没做端口穿透。所以解决方法是使用docker的IP地址。
http://host.docker.internal:11434
(注意:我第一次尝试这个方法以后还是失败了;之前也尝试过其他方法也都失败了,但都提到配置完docker后需要重启软件,我觉得可能单纯的重启软件不解决问题,就直接重启了电脑,再尝试就成功了。)
4.2 ollama的安全问题
在你有公网ip的情况下,你部署的本地模型接口可能会暴露到公网上,为别人的需求义务贡献你的机器;再严重些甚至可能会成为别人的肉鸡。所以建议你配置一下自己的ollama,提高电脑的安全性。
我没有公网ip,所以不配置了。B站有教程,有需求自己可以照着教程自己配置一下。
4.3 ollama的崩溃问题,
在安装docker环境时,顺手点了更新ollama,结果更新失败不说,电脑重启后ollama直接崩溃了。研究发现,后台有ollama的服务,但命令行中无法执行ollama的相关命令,显示没有相关的命令。估计是更新ollama直接把正在运行的ollama文件覆盖后,自身又没更新成功,所以软件就崩溃了。
没办法只能重装,但害怕直接把我下载的模型删掉。又想到模型文件动辄几十上百G,一旦重装就默认删除这些模型的话,是个人都要崩溃的,所以官方肯定会考虑到这个问题。就直接大胆下载最新版ollama尝试重装,结果还是安装还失败了。
发现原因是后台还在运行着ollama的服务。清理后台服务后,安装成功,模型也还在。
5 大模型的实际需求及应用场景
5.1 本地部署的实际需求及应用场景
讲实话,本地部署的模型太过智障,实际应用场景实在是不知道有啥。
私人酒馆?相当于有个私密的二次元人物。我看一些大佬通过相关软件喂给大模型角色相关的资料后,就成功获得了一个二次元老婆/老公。
私人数据文档助手?用于日常的工作中,通过相关的脚本,可以让大模型直接生成ppt和文档。本地部署的大模型肯定安全性更高,这是个十分切合实际的需求。
私人写小说?本来我想着这倒是一个不错的变现路子。喂给它几百本玄幻小说,然后让它写新书,发到番茄上赚点米。但看到有人说不赚钱没事,一旦赚钱后;番茄会启动ai审核,发现是ai写的,直接收回稿费。如果用ai写大纲,自己填充细节,那和直接写小说有啥区别,就博客这几千字写着都挠头,上百万字的小说根本扛不住。
图片识别和绘制?我觉得这个比较实用,我记得n年以前,百度和搜狗都有识图搜索功能,可惜互联网给和谐了。有心的大佬可以实现一下,接口放到博客上绝对能引流。
文生短视频发抖音赚钱?那首先考虑自己升级一下硬件或者买那些官方的服务吧,不然现在的模型条件,生不出啥好的优质视频。
赛博算命?在网页版尝试过,貌似有限制不给算;本地部署后肯定会有方法解决限制,可以研究一下。到时候上架淘宝,一本万利的生意,反正就是输入几个字的事,成一单都是赚。写歌写文案啥的也都可以搞起来试试。
上面这些都是我信口开河,大家可以根据实际情况尝试一下,万一火了呢。
5.2 满血版大模型的应用
相较于本地部署的智障大模型,网上满血版的大模型更具有实用价值。这里结合官方的文档手册对大模型的功能进行简单介绍。
用过大模型的都知道,使用的姿势不对或者多次提问后,大模型就开始偷懒;回复错误和重复回答,这就让人很头疼,幸好官方给出了大模型的正确打开方式,结合官方文档可以更好的使用大模型。如下是官方提供的提示词文档,通过不同的提示词,可以实现不同的功能。
从图中可以看出,官方提供的功能和我上面说的也没太大区别。
深入学习后发现,ai发展迅猛还有更智能的使用方法,门槛相较于学习各类语言来说简直低到爆炸。更高阶的应用方式需要用到dify。它提供了agent功能,你可以通过搭积木的方式实现你想要的功能。
例如分析金融数据:
传统人工方式,手动收集处理数据,这需要耗费大量的人力和时间去处理数据,才能得到有效数据;最后根据这些数据,集合人力去分析才能整理给出结论。
互联网时代,主流方法是利用python或者shell等语言处理数据,可以直接得到数据的各种处理结果及图表,拿到处理结果和图表后,再集合人力进行分析得出结论。此时相较之前的纯人力方案节省了数据处理过程。
而ai时代,你可以通过dify编写工作流,拆分整个过程,将数据处理部分独立成模块,配合大模型串联工作模块,最终实现一键点击,自动生成报告。更好的是,可以将以往人工处理的结果放到知识库,大模型学习后,会给出更符合你要求的数据结果。这极大的提升了用户的效率。
从这个案例可以看出,加持了大模型以后,这份工作最终进化成了点击一下按键的事。而dify的agent模块各种各样,只要你的大脑足够天马行空,什么功能都可以实现。
5.3 满血版大模型在我工作中的应用
最后讲一下大模型对我工作的帮助,大模型最实用的方面是写脚本简单了。需求一说就能给出脚本的整体框架,自己改改就能用;但这需要自己逻辑清晰、对需求明了,不然写出来的也是一坨大便,运行效率极低。其次我的工作经常需要解决各类编译问题,这就是大模型的另一重大用处了;它往往能给出不错的建议帮助我缩小问题范围,再配合我的工作经验,可以快速的解决问题,极大的提升了我的工作效率。
至于cursor,我主要编写的是驱动代码,我觉得在驱动代码需求中代码的设计以及了解api接口更重要一些,所以cursor对我作用不太大;反而是能帮我读懂驱动代码的问答式大模型更重要一些。
6 总结
整体实践下来发现,如果你对个人隐私、数据安全有极高的需求,那我推荐你深入研究一下本地模型部署;但没有这些需求的话,建议前期先使用各家满血版deep seek模型,等deep seek自家模型扩容完毕,能正常使用后专用官方模型就好了。毕竟自己的模型再牛逼也比不上人家满血版大模型牛吧!
最后再说一句,以技术的迭代速度以及国内的内卷程度,我觉得更牛的模型在后面呢。没必要折腾自己的小机器专门搞本地部署,除非有强隐私需求,其他的都是伪需求。