Windows 安装 Ollama 全教程:本地部署大模型并跑通第一个 AI 对话
Ollama 是一个面向本地大语言模型运行的开源工具,支持在 Windows 上快速下载模型、启动本地服务并通过命令行或 API 调用。本文基于官方 GitHub README 和官方安装入口,采用 Windows 本地安装方案,完整演示 Ollama 安装、模型拉取、命令行对话、REST API 验证以及常见报错排查,适合想低门槛体验本地 LLM 的开发者。

现在在 Windows 上跑本地大模型,已经没有以前那么“重工业”了。
如果你的目标不是自己编译推理框架,而是先把模型跑起来、先能本地对话、先能调接口,那 Ollama 是一条很适合入门的路线。
这篇文章就按最常见的 Windows 场景来,带你把安装、模型下载、命令行验证和 API 调用完整走一遍,先把第一个闭环跑通。
一、项目背景

Ollama 是一个用于本地运行和管理大语言模型的开源工具。它的定位很清楚:尽量降低本地 LLM 的使用门槛,让开发者能用更简单的方式完成模型下载、启动、对话和接口调用。
对于普通开发者来说,Ollama 的价值主要体现在这几个方面:
- 可以在本机直接运行常见大模型
- 提供统一的命令行体验
- 内置本地 HTTP API,便于程序接入
- 适合和 Open WebUI、AnythingLLM 等工具联动
- 适合作为本地 AI 工具链的入口
很多人第一次接触本地大模型,容易把精力都花在环境复杂度上,比如显卡驱动、推理框架、依赖版本、模型格式兼容。但如果你的目标只是先跑通一个可用的本地模型服务,Ollama 明显更省心一些。
官方GitHub的项目地址:
https://github.com/ollama/ollama
如果你只是想快速体验本地大模型,或者准备把模型接进自己的应用、脚本、知识库系统里,那 Ollama 很适合作为第一站。
二、本文环境说明
本文采用的是Windows 本地安装方案,以“先跑通”为核心目标,不追求一步到位搞生产环境。
运行环境
- 操作系统:Windows 10 / Windows 11
- 部署方式:官方安装包本地安装
- 终端工具:PowerShell
- 验证方式:
- 命令行对话
- 本地 REST API 调用
- 默认服务地址:
http://localhost:11434
模型建议
为了提高首次安装成功率,本文建议优先使用小模型,比如:
gemma3:1bllama3.2:1b
原因很简单:
- 下载更快
- 占用更低
- 更容易验证
- 对内存和磁盘更友好
硬件建议
结合官方 README 的说明,可大致参考:
- 7B 模型:建议至少 8GB 内存
- 13B 模型:建议至少 16GB 内存
- 33B 模型:建议至少 32GB 内存
如果你只是跟着教程做验证,建议不要一开始就上大模型。
先把小模型跑通,这一步远比“模型参数大不大”更重要。
说明
本文属于便于快速上手的简化路径。
如果你后续需要:
- 更强 GPU 性能
- 多模型管理
- 生产环境部署
- 与 Web UI 深度集成
建议再结合官方文档做扩展配置。
三、安装前准备
正式安装前,先做几项基础检查,避免后面遇到问题时一头雾水。
1. 检查系统版本
按下 Win + R,输入:
winver
确认系统是较新的 Windows 10 或 Windows 11。
如果系统版本过老,很多桌面工具的兼容性都会变差,别把时间浪费在不必要的系统坑里。
2. 检查磁盘空间
Ollama 本体不算大,但模型文件会占用比较明显的空间。
建议至少预留几 GB 以上磁盘空间,尤其是你准备拉多个模型时。
如果只是做首次验证,用 1B 小模型压力不大,但也不要让系统盘只剩几百 MB 再来装本地 AI 工具。
你可以在“此电脑”里直接查看各盘剩余空间。
3. 检查内存是否足够
虽然 Ollama 支持本地运行模型,但运行体验很大程度上取决于机器资源。
如果你的机器本身只有较低内存,又开着一堆浏览器和 IDE,大模型跑起来慢是很正常的,不是项目跟你过不去。
首次验证建议:
- 尽量关闭高占用后台程序
- 选择 1B 小模型
- 不要同时开太多重型软件
4. 准备 PowerShell
本文演示命令默认使用 PowerShell。
打开方式:
- 开始菜单搜索
PowerShell - 建议右键选择“以管理员身份运行”
严格来说,不是每一步都必须管理员权限,但在安装阶段这样做通常更稳。
四、安装与部署

这一部分是全文核心:在 Windows 上安装 Ollama,并确认服务可正常运行。
1. 下载 Windows 安装包
Windows 下推荐直接使用官方安装入口。
可参考以下地址:
- GitHub 仓库:
https://github.com/ollama/ollama - 官方网站:
https://ollama.com
进入官网后,下载 Windows 版安装包并执行安装。
2. 执行安装
双击安装包,按提示完成安装即可。
Windows 下这一步通常比较直接,属于标准桌面软件安装流程。
安装完成后,Ollama 一般会完成这些动作:
- 安装本地程序
- 注册可执行命令
- 启动本地服务
- 默认开放本地 API:
localhost:11434
3. 检查命令是否生效
安装完成后,重新打开一个新的 PowerShell 窗口,执行:
ollama --version
如果能输出版本信息,说明 Ollama 已经安装成功。
如果这里提示找不到命令,先别急,后面的“常见报错与解决方案”里会专门处理。
4. 检查 Ollama 是否可正常响应
执行:
ollama list
如果命令能正常执行,说明基本环境已经打通。
此时如果你本地还没有模型,列表可能为空,这是正常的。
因为安装 Ollama 不等于自动安装模型,模型需要单独拉取。
5. 第一次拉取模型
为了降低第一次失败的概率,建议先拉小模型。
执行:
ollama run gemma3:1b
或者:
ollama run llama3.2:1b
首次运行时,Ollama 会自动:
- 检查本地是否已有该模型
- 如果没有,则开始下载
- 下载完成后启动模型
- 进入交互式对话界面
这一步其实就是 Ollama 最核心的体验:
一个命令,把模型下载和运行串起来。
五、配置说明
Ollama 的优点之一就是快速上手不需要复杂配置。
不过有几个点,建议你在开始前理解清楚。
1. 默认 API 地址
Ollama 默认提供本地接口地址:
http://localhost:11434
后面无论你是用 PowerShell 测试,还是用 Python、Node.js 接入,本质上都是调这个服务。
2. 模型和程序是分开的
这是新手最容易误解的一点:
- 安装的是 Ollama 工具
- 下载的是 具体模型
- 运行时调用的是 本地 Ollama 服务
也就是说,你看到 ollama --version 能执行,不代表模型已经准备好了。
例如:
ollama run gemma3:1b
第一次执行时,才会真正开始拉取模型。
3. 常用命令
查看本地已有模型:
ollama list
查看正在运行的模型:
ollama ps
查看模型详情:
ollama show gemma3:1b
停止模型:
ollama stop gemma3:1b
删除模型:
ollama rm gemma3:1b
如果你打算后续长期使用 Ollama,这几个命令基本都绕不开。
4. 自定义模型能力
根据官方 README,Ollama 支持通过 Modelfile 对模型进行轻量封装。
例如:
FROM llama3.2
PARAMETER temperature 1
SYSTEM """
You are a helpful assistant.
"""
然后执行:
ollama create mymodel -f .\Modelfile
ollama run mymodel
这类能力更适合后续做:
- 固定系统提示词
- 企业内部助手
- 角色型问答助手
- 特定场景模型封装
本文先不深入展开,知道这个入口就够了。
六、跑通第一个 Demo
接下来开始做最关键的事情:把第一个可用闭环跑通。
Demo 1:命令行对话
执行:
ollama run gemma3:1b
如果你使用的是另一个小模型,也可以替换模型名。
首次运行时,你应该会看到:
- 模型下载进度
- 下载完成后的启动过程
- 进入交互式终端界面
然后输入一句测试内容,例如:
你好,请用一句话介绍你自己
成功现象
如果这一步成功,你应该能看到模型返回文本回复。
这说明下面几件事都已经成立:
- Ollama 程序安装成功
- 模型下载成功
- 模型可正常运行
- 本地推理链路已打通
这一步是整个教程里最重要的验证点。
Demo 2:查看模型是否已经落地
打开另一个 PowerShell 窗口,执行:
ollama list
如果你能看到类似 gemma3:1b 的模型名称、大小和更新时间,说明模型已经成功保存到本机。
Demo 3:测试 /api/generate 接口
根据官方 README,Ollama 提供本地生成接口。
在 PowerShell 中可以这样测试:
curl http://localhost:11434/api/generate -Method Post -Body '{
"model": "gemma3:1b",
"prompt": "请用中文解释一下 Ollama 是什么"
}' -ContentType "application/json"
如果你本地实际运行的是 llama3.2:1b,把模型名换成对应值即可。
Demo 4:测试 /api/chat 接口
继续测试聊天接口:
curl http://localhost:11434/api/chat -Method Post -Body '{
"model": "gemma3:1b",
"messages": [
{ "role": "user", "content": "你好,请简要介绍一下 Windows 上的 Ollama" }
]
}' -ContentType "application/json"
这个接口更适合后续做聊天机器人、桌面助手或者接 Web 前端。
七、效果验证

部署成功不能只看“好像装上了”,最好从几个角度都确认一下。
1. 命令行验证
执行:
ollama --version
ollama list
如果命令可正常输出,说明 CLI 工具已经安装到位。
2. 模型运行验证
执行:
ollama run gemma3:1b
输入问题并拿到回复,说明本地推理能力可用。
3. API 服务验证
执行:
curl http://localhost:11434/api/generate -Method Post -Body '{
"model": "gemma3:1b",
"prompt": "请返回一句:接口调用成功"
}' -ContentType "application/json"
如果接口返回生成内容,说明本地服务已经可以被程序调用。
4. 什么现象说明部署成功?
满足下面几点,基本就可以认为 Ollama 已成功部署:
ollama --version正常输出ollama list可执行- 至少一个模型已成功下载
ollama run 模型名能正常对话- 本地 API 能返回结果
如果这些都通过了,后续你接 Python、Node.js、RAG 工具,思路就很清晰了。
八、常见报错与解决方案
这一节建议认真看。
Windows 下很多问题,并不是 Ollama 本身坏了,而是路径、网络、权限、终端行为或者机器资源在捣乱。
1. 报错:ollama 不是内部或外部命令
原因
最常见的原因有:
- 安装后当前终端没有刷新
- PATH 尚未生效
- 安装过程异常中断
解决方案
按下面顺序处理:
- 关闭当前 PowerShell / CMD
- 重新打开终端
- 再执行:
ollama --version
如果还是不行,可以:
- 重启电脑
- 重新安装 Ollama
- 检查安装目录是否存在
Windows 下这类问题,很多时候不是技术难题,就是终端环境没刷新,别一上来就怀疑自己系统崩了。
2. 模型下载失败或速度很慢
原因
通常是:
- 网络不稳定
- 模型体积较大
- 磁盘空间不足
- 本地安全软件拦截下载过程
解决方案
优先做这几件事:
- 换成小模型先验证
- 检查磁盘空间
- 确认网络可正常访问
- 关闭可能拦截下载的安全软件或代理干扰
建议先执行:
ollama run gemma3:1b
把链路先跑通,比执着某个大模型更重要。
3. 模型运行很慢、响应卡顿
原因
最常见的原因就是四个字:资源不够。
具体可能包括:
- 内存不足
- 没有可用 GPU
- 模型选太大
- 后台程序占用过高
解决方案
建议直接从这几点入手:
- 换小模型
- 关闭浏览器、IDE、视频软件等高占用程序
- 不要同时跑多个大任务
- 优先验证可用性,再考虑性能优化
例如:
ollama run llama3.2:1b
如果你的机器本来就偏轻薄本路线,那就别强行拿大模型硬顶。先跑通,是最务实的策略。
4. API 调用失败,提示连接不上
原因
一般集中在以下几个方向:
- Ollama 服务没有启动
- 模型还没下载完成
- 端口未正常响应
- 本地防火墙或安全软件拦截
解决方案
先执行:
ollama list
再尝试直接运行模型:
ollama run gemma3:1b
确保模型可正常进入交互后,再测试 API:
curl http://localhost:11434/api/generate -Method Post -Body '{
"model": "gemma3:1b",
"prompt": "测试接口"
}' -ContentType "application/json"
排查顺序一定要对:
先确认 Ollama 能跑,再确认模型能跑,最后再看 API。
5. PowerShell 里的 curl 用得别扭
原因
Windows PowerShell 里的 curl 和 Linux/macOS 上的体验不完全一致,尤其在 JSON 参数传递上,经常会让人感觉“命令看着没问题,结果就是不顺”。
解决方案
除了继续用 curl,也可以直接用 PowerShell 原生方式:
Invoke-RestMethod -Uri "http://localhost:11434/api/generate" `
-Method Post `
-ContentType "application/json" `
-Body '{
"model": "gemma3:1b",
"prompt": "hello"
}'
如果你长期在 Windows 做接口联调,Invoke-RestMethod 往往更稳。
6. 安装完成后 ollama list 为空
原因
这不是报错,很多时候只是你还没拉模型。
解决方案
执行:
ollama run gemma3:1b
或者:
ollama pull gemma3:1b
然后再次查看:
ollama list
记住一个原则:
装好了 Ollama,不等于模型已经在本机。
7. 怀疑 GPU 没生效
原因
这类问题通常和显卡驱动、系统兼容性、设备状态有关,不完全是 Ollama 一层能解决的。
解决方案
先确认你的系统本身显卡状态正常:
- 驱动已正确安装
- 设备管理器无异常
- 显卡工具可正常识别硬件
如果你只是首次安装,建议先别把精力都耗在 GPU 优化上。
先跑通 CPU 路线,再去研究显卡加速,节奏会更合理。
九、进阶说明
如果你已经顺利完成安装和基础验证,后面可以从下面几个方向继续深入。
1. 联动 Open WebUI
这是很多人后续最常见的选择:
- Ollama 负责本地模型服务
- Open WebUI 负责提供图形化对话界面
适合想搭一个“本地版 ChatGPT”体验的人。
2. 接入自己的应用程序
Ollama 提供本地 HTTP API,你可以直接接入:
- Python 脚本
- Node.js 服务
- Java 后端
- 桌面客户端
- 本地知识库 / RAG 应用
如果你只是想做一个“可调用的本地大模型服务”,这一点已经够用了。
3. 使用 Modelfile 做简单定制
适合做:
- 固定系统提示词
- 专用问答助手
- 角色助手
- 企业内部语料封装
这一步很适合从“能用”走向“更贴业务”。
4. 导入 GGUF 模型
根据官方 README,Ollama 还支持通过 Modelfile 导入本地 GGUF 模型。
如果你后面打算用更灵活的模型来源,这条路线值得研究。
十、总结
Ollama 之所以适合入门,不是因为它把所有复杂问题都消灭了,而是因为它把最关键的第一步尽量做简单了。
这篇文章我们完整做了几件事:
- 在 Windows 上安装 Ollama
- 检查命令行环境是否正常
- 拉取并运行一个小模型
- 跑通第一次命令行对话
- 验证本地 REST API
- 排查常见的命令、网络和资源问题
对于大多数开发者来说,做到这一步已经够用了。
因为本地大模型这件事,真正重要的不是一次性把全家桶装满,而是先确认:你的机器能跑、你的接口能调、你的链路是通的。
一句话总结就是:
先把 Ollama 跑通,本地 AI 工具链才算真正有了起点。
更多推荐


所有评论(0)