在Windows个人电脑上通过Ollama在本地部署AI大模型（部署qwen3、使用CherryStudio和AingDesk与AI大模型交互、解决Ollama中AI大模型只能同时处理一个请求的问题）

聂可以

1645人浏览 · 2026-02-13 09:30:00

聂可以 · 2026-02-13 09:30:00 发布

文章目录

0. 为什么要在本地部署AI大模型
1. Ollama
2. 下载AI大模型
3. 下载与AI大模型交互的软件
4. 使用软件与AI大模型进行交互
5. 解决ollama中AI大模型只能同时处理一个请求的问题
- 5.1 添加OLLAMA_NUM_PARALLEL系统环境变量
- 5.2 重启ollama
6. 本地部署AI大模型时可能遇到的问题
7. 如何停止正在运行的AI大模型
8. 参考视频

0. 为什么要在本地部署AI大模型

考虑维度	实际意义
数据安全与隐私	数据完全在本地闭环处理，无需上传至第三方云端服务器
响应速度与体验	模型推理在本地硬件上直接完成，消除了网络传输延迟
深度定制与集成	拥有模型权重，允许利用私有数据进行微调，并修改底层代码
成本控制与效益	一次性硬件投入后，内部使用边际成本趋近于零，无按Token计费的压力
内容自主与审查	摆脱第三方API不透明的黑盒敏感词过滤机制（AI 大模型输出到一半时突然撤回消息）

1. Ollama

1.1 Ollama是什么

Ollama 是一个“本地运行大模型”的工具，可以在你的电脑/服务器上下载、运行和管理各种开源大语言模型，并提供统一命令行和 HTTP API，像用本地版的“ChatGPT 服务”一样方便

1.2 下载Ollama

1.2.1 通过Ollama官网下载

下载地址：https://ollama.com/

https://ollama.com/

在这里插入图片描述

1.2.2 通过GitHub下载

下载地址：https://github.com/ollama/ollama/

https://github.com/ollama/ollama/

如果无法正常访问 GitHub，可以参考我的另一篇博文：GitHub的使用技巧（加速访问GitHub、查看GitHub的热门项目、查看GitHub推荐的项目、Fork、Issue、快速找到项目的安装包、GitHub的各种快捷键）

在这里插入图片描述

1.2.3 通过第三方下载（推荐）

通过第三方下载的 Ollama 可能不是最新版，但不影响我们正常使用，后续我们也可以手动将Ollama升级到最新版

下载地址：https://www.onlinedown.net/soft/10133234.htm

https://www.onlinedown.net/soft/10133234.htm

在这里插入图片描述

1.2.4 通过联想电脑管家下载

没想到吧，联想电脑管家还能干这事ψ(*｀ー´)ψ

联想电脑管家的下载地址：https://guanjia.lenovo.com.cn/

https://guanjia.lenovo.com.cn/

在这里插入图片描述

成功安装联想电脑管家后，打开联想应用商店

在这里插入图片描述

搜索 Ollama 关键字，点击安装按钮就可以下载了（由于我的电脑上已经安装过 Ollama，所以显示的是打开按钮）

Ollama

在这里插入图片描述

1.3 安装Ollama

双击 OllamaSetup.exe 文件安装 Ollama，一路点击下一步就好了（默认安装在 C 盘，不可更改）

在这里插入图片描述

安装成功之后，会自动打开 Ollama 软件

在这里插入图片描述

1.4 更新Ollama（可选）

在任务栏中鼠标右键 Ollama 的图标，点击 Restart to update 选项

在这里插入图片描述

2. 下载AI大模型

2.1 更改AI大模型的保存路径

使用 Ollama 下载大模型时，大模型默认会保存在 C 盘，我们需要更改大模型的保存路径

点击 Ollama 左上角的图标

在这里插入图片描述

点击 Settings 选项

在这里插入图片描述

更改大模型的保存位置

在这里插入图片描述

2.2 Ollama设置界面中各个配置项的含义

以下是使用微信翻译的 Ollama 设置界面

在这里插入图片描述

上下文长度越大，大模型能够记住你说过的内容就越多，使用体验也会更好，当然，上下文长度越大，大模型的处理速度和吐字速度也会变慢，可根据机器的硬件配置调整上下文的长度

2.3 下载AI大模型（以qwen3:4b为例）

本次演示所使用的电脑的硬件配置如下：

CPU：Intel® Core™ i5-14600KF
内存：32G
显卡：16G

2.3.1 在大模型广场找到qwen3:4b大模型

大模型广场：https://ollama.com/

https://ollama.com/

搜索 qwen3 关键字

在这里插入图片描述

不同参数的 qwen3 模型对硬件的要求如下

模型名称	模型大小	上下文长度	输入类型	推荐硬件配置
qwen3:latest	5.2GB	40K	文本	NVIDIA RTX 3060 / 3070 或更高（12GB 显存）；支持推理部署于消费级 GPU
qwen3:0.6b	523MB	40K	文本	Intel i5 + 16GB 内存或树莓派 4B（轻量级任务）；适合边缘设备
qwen3:1.7b	1.4GB	40K	文本	NVIDIA GTX 1660 / RTX 3050（6GB 显存）；可本地运行小规模任务
qwen3:4b	2.5GB	256K	文本	NVIDIA RTX 3080 / 4070（10GB+ 显存）；适合长文本处理
qwen3:8b	5.2GB	40K	文本	NVIDIA RTX 3090 / 4080（24GB 显存）；推荐用于高性能推理
qwen3:14b	9.3GB	40K	文本	NVIDIA A6000 / RTX 4090（48GB 显存）；需专业级显卡支持
qwen3:30b	19GB	256K	文本	双卡或多卡 NVIDIA A100 / H100；适合科研与企业级应用
qwen3:32b	20GB	40K	文本	多卡 A100 / H100 集群；需分布式推理架构支持
qwen3:235b	142GB	256K	文本	超大规模集群（如 8x A100/H100）；仅限云平台或超算中心部署

我们下载参数为 4b 的模型

在这里插入图片描述

复制代码

ollama run qwen3:4b

在这里插入图片描述

2.3.2 下载qwen3:4b大模型

按下 win + r 快捷键，输入 cmd 指令打开命令行窗口，在命令行窗口中输入我们刚才复制的代码

ollama run qwen3:4b

在这里插入图片描述

2.4 验证AI大模型在本地是否部署成功

下载成功后，如果终端出现 Send a message （/? for help) 提示信息，说明大模型在本地部署成功了

在这里插入图片描述

我们可以在终端中与大模型进行交互，第一次提问时大模型的回复速度可能较慢，后面大模型的回复速度会快很多

在这里插入图片描述

2.5 修改AI大模型的上下文长度

我们打开 Ollama 的界面，点击 Settings 按钮

在这里插入图片描述

即使你的对话没有任何记录，在机器硬件配置有限的情况下，上下文长度变大，大模型的处理速度也会下降

根据大模型的吐字速度灵活调整上下文长度，在机器配置有限的情况下，上下文长度越长，大模型的处理速度（吐字速度）越慢

在这里插入图片描述

3. 下载与AI大模型交互的软件

一直在 cmd 命令窗口里面与大模型交互，很不方便，我们可以借助一些软件来实现聊天对话框的效果

3.1 Cherry Studio社区版（个人使用免费，商用需授权）

3.1.1 下载

下载地址：https://www.cherry-ai.com/

https://www.cherry-ai.com/

在这里插入图片描述

3.1.2 安装

双击 Cherry Studio 安装包，一路点击下一步即可

在这里插入图片描述

看到以下界面说明 Cherry Studio 安装成功了

在这里插入图片描述

3.2 AingDesk（个人使用和商用均免费）

3.2.1 下载

3.2.1.1 通过GitHub下载

下载地址：https://github.com/aingdesk/AingDesk

https://github.com/aingdesk/AingDesk

在这里插入图片描述

3.2.1.2 通过腾讯CNB下载

下载地址：https://cnb.cool/aingdesk/AingDesk/-/releases

https://cnb.cool/aingdesk/AingDesk/-/releases

在这里插入图片描述

3.2.2 安装

双击 AingDesk-win-1.2.4-x64.exe 文件，一路点击下一步就可以了

在这里插入图片描述

看到以下界面说明 AingDesk 安装成功了

在这里插入图片描述

4. 使用软件与AI大模型进行交互

4.1 使用Ollama与AI大模型进行交互

在 Ollama 中也与 AI 大模型进行交互

选择我们下载好的 qwen3:4b 模型

在这里插入图片描述

4.2 使用Cherry Studio与AI大模型进行交互

4.2.1 添加本地AI大模型

点击右上角的设置图标

在这里插入图片描述

搜索 Ollama 关键字

在这里插入图片描述

点击 Ollama 选项，再点击添加按钮

在这里插入图片描述

输入模型 ID 后会自动填写模型名称和分组名称

qwen3:4b

在这里插入图片描述

添加成功后点击左上角的首页，再点击某个对话，将对话中的模型切换为 qwen3:4b 模型，切换成功后就可以正常对话了

在这里插入图片描述

4.2.2 设置AI大模型上下文的长度

点击对话记录右边的三个小点

在这里插入图片描述

将上下文数设置为不限（之所以设置为不限，是因为我们要靠 Ollama 来限制上下文数量，而不是靠 Cherry Studio 来限制上下文数量）

在这里插入图片描述

接着我们打开 Ollama 的界面，点击 Settings 按钮

在这里插入图片描述

即使你的对话没有任何记录，在机器硬件配置有限的情况下，上下文长度变大，大模型的处理速度也会下降

根据大模型的吐字速度灵活调整上下文长度，在机器配置有限的情况下，上下文长度越长，大模型的处理速度（吐字速度越慢）越慢

在这里插入图片描述

4.3 使用AingDesk与AI大模型进行交互

使用本地模型

在这里插入图片描述

查看已安装的模型

在这里插入图片描述

选择我们安装好的 qwen:3b 模型

在这里插入图片描述

在下方的输入框中输入提问内容

在这里插入图片描述

5. 解决ollama中AI大模型只能同时处理一个请求的问题

默认情况下，如果同时打开两个聊天窗口，ollama 需要处理完第一个请求之后才能处理第二个请求

在这里插入图片描述

5.1 添加OLLAMA_NUM_PARALLEL系统环境变量

我们可以通过添加 OLLAMA_NUM_PARALLEL 系统环境变量来设置 ollama 支持的请求并发数

按下 win + i 快捷键，搜索环境变量关键字，点击编辑系统环境变量

在这里插入图片描述

点击环境变量

在这里插入图片描述

点击新建

在这里插入图片描述

变量名称为 OLLAMA_NUM_PARALLEL，变量的值为并发数

OLLAMA_NUM_PARALLEL

添加完 OLLAMA_NUM_PARALLEL 环境变量后，点击打开的窗口的所有确定按钮，保存更改

在这里插入图片描述

5.2 重启ollama

在任务栏中鼠标右键 Ollama 图标，暂时关闭 Ollama

在这里插入图片描述

再次打开 Ollama，可以发现 Ollama 已经支持同时处理多个请求了

6. 本地部署AI大模型时可能遇到的问题

6.1 AI大模型的处理速度（吐字速度）十分慢

如果大模型的吐字速度十分慢，大概率是因为上下文长度太长了，在机器硬件配置有限的情况下，可以适当减小上下文的长度

我们打开 Ollama 的界面，点击 Settings 按钮

在这里插入图片描述

即使你的对话没有任何记录，在机器硬件配置有限的情况下，上下文长度变大，大模型的处理速度也会下降

根据大模型的吐字速度灵活调整上下文长度，在机器配置有限的情况下，上下文长度越长，大模型的处理速度（吐字速度）越慢

在这里插入图片描述

6.2 使用Cherry Studio与AI大模型交互时报错（model requires more system memory）

6.2.1 问题呈现

如果在使用 Cherry Studio 与 AI 大模型交互时报错

在这里插入图片描述

点开错误详情后发现相应内容为

“error”: “model requires more system memory (64.3 GiB) than is available (44.2 GiB)”

在这里插入图片描述

6.2.2 解决方法

之所以出现这个问题，是因为 Ollama 支持的请求并发数设置得太大了，或者 AI 大模型上下文长度太大了，机器拉不动

要解决这个问题，我们需要调整 Ollama 支持的请求并发数或调整 AI 大模型的上下文长度：

调整 AI 大模型的上下文长度：参考本文的 AI大模型的吐字速度十分慢章节
调整 Ollama 支持的请求并发数：参考本文的解决ollama只能同时处理一个请求的问题章节

7. 如何停止正在运行的AI大模型

默认情况下，如果 4 分钟内不再向 AI 大模型发送任何请求，Ollama 为了节省资源，会自动把 AI 大模型从内存（显存）中卸载掉，只要一直在跟 AI 大模型对话，这个时间就会一直重置

按下 win + r 快捷键，输入 cmd 指令打开命令行窗口，在命令行窗口中 ollama ps 指令

ollama ps

在这里插入图片描述

字段	含义
NAME	当前正在运行的模型名称（这里是 Qwen3 的 4B 版本）
ID	模型实例的唯一标识哈希值，用于区分不同的会话实例
SIZE	这个模型当前占用的显存（或内存）大小。如果看到 20多 GB，说明模型很大或者被加载到了显存中
PROCESSOR	显示模型的计算资源分配情况。目前模型正在混合使用 CPU 和 GPU，大约 36% 的负载在 CPU 上，64% 的负载在 GPU 上。这通常是好事，说明你的 GPU 正在承担主要工作
CONTEXT	上下文窗口大小，即模型能"记住"的最多 Token（词元）数量。32768 表示 32k 的上下文长度
UNTIL	自动卸载倒计时。这表示如果你在接下来的 4 分钟内不再向这个模型发送任何请求，Ollama 为了节省资源，会自动把它从内存（显存）中卸载掉。只要你在跟它对话，这个时间就会一直重置

按下 win + r 快捷键，输入 cmd 指令打开命令行窗口，在命令行窗口中 ollama stop qwen3:4b 指令停止正在运行的 AI 大模型，其中 qwen3:4b 为 AI 大模型的名称

ollama stop qwen3:4b

在这里插入图片描述

8. 参考视频

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Prompt，除了使用外，你了解其核心原理么？

是的，除了日常“用”提示词之外，我对它的底层机制有比较系统的理解。Prompt Engineering 之所以在 2023–2026 年成为大模型时代最实用、最“玄学”又最科学的技能之一，是因为它本质上在操控 Transformer 架构的，而非修改模型权重。下面从最底层原理解释为什么“改几个词、加几句话”就能让模型表现天差地别（基于 Transformer 自注意力 + 预训练 + 后训练机制）