本地大模型系列：1.配置本地Ollama的大模型助手

安装和配置ollama，解答一些常见问题

razelan

258人浏览 · 2026-02-27 20:58:50

razelan · 2026-02-27 20:58:50 发布

0.序

本文提到的所有的安装包均在百度网盘分享可以找到：https://pan.baidu.com/s/1QbPyoGq3_yOpWYvorxyPeg?pwd=8vmg

网页版（在线版）的大模型相信大家都不陌生了，只要你能够联网，就可以使用远程的大模型。

远程大模型的特点是功能强大，几乎可以做所有的事情，缺点是必须要联网，再则就是隐私问题。举个例子，我希望使用AI帮我解读一张图片，避无可避的前提是你把这张图先发给AI吧。你所有的和AI交互的内容，只要提供这项服务的供应商愿意，都可以把这些内容永久保存，感兴趣的可以了解一下豆包的隐私协议：https://www.doubao.com/legal/privacy?external=true

通过一些工具，我们是可以在本地部署大模型的，比如ollama、xreference、LM studio等。本地部署的大模型的能力肯定是不如在线大模型的，差距还是比较大的，毕竟个人电脑的性能就在那，没法跟专业计算卡相比。

但如果我们不需要太强的性能、又对隐私性要求比较高，亦或者没有网络的时候，本地大模型就可以大显身手了。

以qwen3家族为例（截止目前已经出到qwen3.5了，奈何目前ollama官方已有的模型的最低参数都是27b的，物理大小17GB，需要24G的显存的显卡才能跑起来，小用户玩不转），有专注于语言对话的qwen3、具多模态处理能力的qwen3-vl、具有向量能力的qwen3-embedding，还有ocr能力的deepseek-ocr，其实已经能帮我们完成很多工作了。并且ollama也具备本地api功能，可以通过http、python等进行调用，将其功能进行集成，对于个人来说非常方便。

当然，以上说的都是个人使用的情形，至于企业还有其他的解决方案，就不在这里讨论了。（个人使用管好自己就行，不用太考虑多并发、缓存等并发效能问题）

1.下载ollama

打开ollama官网：https://ollama.com/

找到右上角的download

选择你的平台，下载安装文件并安装

PS:ollama在windows和mac平台能够自动升级。

2.配置ollama

不同于以往，目前的ollama已经有一个UI界面了，启动以后在任务栏里面还有个图标，点开能看到下面的菜单，还有他的界面。

点击Open Ollama会打开下面的界面

这个界面一看就可以用来交互的，但是现在里面还什么都没有，我们需要下载大模型。在这之前，我们先要做一些配置。

在任务栏点开，点击Settings：

1.ollama account不需要登录也可以使用

2.cloud也不用打开，因为我们要使用的是本地模型

3.Expose ollama to the network 要打开，这样我们就可以使用ollama的api

4.Model location 要修改，这是下载大模型以后保存的位置，windows系统默认值在c盘，为了避免变成c盘展示，可以在后面的盘建一个目录，然后在这里指向这个目录

5.context length 以豆包为例，在跟豆包多轮对话以后，你会不会觉得豆包能够记住你之前问过它事情，你再提起这些事情，它也可以做出相关回答。其实在我们和豆包交互的时候，每一次都是把所有的聊天记录一并丢给豆包，而不是豆包“记住”了什么东西（惊不惊喜、意不意外），也就是说，当会话时间长了以后，豆包每次要处理内容会越来越多，因为它需要结合当前所有的内容最最合适的回答。这个context length（上下文长度）就是可以送给大模型文字的最大长度，超过这个长度就会被截断。

配置好以上以内容后，重启一次计算机。

3.下载模型

点开这个链接，就可以搜索我们需要的模型了。

我们先下载qwen3（如果你的显存够大，可以选择qwen3.5）

先搜索qwen3

我们可以看到qwen3有很多个版本，对应不用的参数。

如果你有N卡且先配置好了显卡驱动和cuda（参见：https://blog.csdn.net/razelan/article/details/152720013?spm=1001.2014.3001.5502），再安装ollama，那么你的ollama就能使用N卡。ollama同时支持A卡、苹果M芯片，其他不支持，民间有能够支持NPU的魔改版，但是不稳定。

以qwen3:8b为例，仅仅启动就需要占用5.2GB显存（从硬盘上先要加载到内存，再从内存加载到显存），context length越大，需要消耗的显存越多。实际加载时因显存对齐、模型元数据、GPU 驱动预留，会额外占用约 0.5~1GB，加上操作系统保留，8G显存加载6.5G的模型大约是极限，超过这个数字，大概率会变成CPU模型运行而不会使用显卡运行。

（在任务管理器--性能中通过查看内存和显存消耗的方式管家大模型究竟使用cpu还是gpu启动）

了解以上知识以后，我们就知道应当如何挑选模型了。

参数太小的模型可能会显得不那么智能，参数大的模型我们又可能背不动，在内存/显存可以负荷的上限选择一个合适的就好。

PS：模型参数越大，输出的速度越慢----很好理解，它输出文字的时候要考虑、兼顾的东西更多了。

如何下载模型：

打开cmd，输入命令：ollma --version

可以看到ollama的版本

对于比较新的模型，ollama的版本是有最低要求的。

我们使用ollama pull 模型名字的方式下载模型:

（注意：如果发现下载的速度变得很慢，只有几十k，按ctrl+c打断，重新运行pull命令，可以继续下载，速度会快一些）

严格来说，这里应该是： ollama pull qwen3:8b

但是注意在模型列表里面，8b模型后面有个latest

也就是说在缺省方式下（不指定参数），默认下载的是8b模型。

下载前请确认硬盘空间充足，尤其是已经修改过模型的保存路径且重启过电脑。

如果你想下载别的参数的模型（比如我想比较一下1.7b、4b、8b的实际性能），那就要在模型后指定参数，比如：ollama pull qwen3:1.7b

下载完成后，我们使用ollama list命令可以查看电脑上现有哪些模型，你也可以前往模型目录去看一下。

删除模型请自行百度。

4.运行模型

此时再打开ollama的界面，我们就可以看到已经有的模型了。

可以看到qwen3自带thinking模式。

这里解释一下thinking模式的有什么用：

与直接回答问题不同，思考模式可以帮助用户完善提问，考虑你没有考虑到的事情，我们看一下思考内容

思考模式对于问题回答的结果是相当有帮助的，但是缺点同样明显，思考是需要消耗时间的，其实你应该反思一下，什么时候需要思考模式，什么时候不需要思考模式：当你的目的很明确、提问的内容已经足以表达你的意思是，思考模式其实对回答的帮助已经不大了，还不如直接回答，例如“已知直角三角形的一条直角边为17，另外两条边各是多少”；当你对问题的描述可能都不太清晰时，思考模式就能帮上大忙，例如“给我制作一个三天两晚的珠海旅游方案”