Ollama×魔搭社区：本地部署大模型完整指南！

文章介绍了本地部署小参数大模型的优势与方法，重点讲解了通过Ollama工具部署本地大模型的完整流程。内容包括：显存计算公式、模型量化选择（GGUF格式）、Ollama安装与配置、模型下载与运行方法。文章适合想实现AI离线运行、数据私有化、降低成本的读者，提供了从零开始的详细教程，让用户无需依赖API即可在本地运行大模型。

拥抱AGI

511人浏览 · 2025-11-11 14:20:45

拥抱AGI · 2025-11-11 14:20:45 发布

随着大模型的不断发展，小参数模型的能力也在逐渐进步，就拿阿里最新开源的qwen3来说，其中有负责多模态的qwen3-vl系列和专为代码优化的qwen3-code系列等，这些不同使用场景中都有开源的小参数模型来方便我们本地部署。

那开源部署小模型的好处有什么呢？小天认为至少有以下优势：

数据私有化：数据不出网，适合政企、学习或医院等对隐私要求高的场景。
无网络依赖：离线即可使用，不依赖网络。
成本大幅下降：本地推理成本降到最低（电费），比调用大模型api要省钱太多了。
微调门槛低：小模型比起大模型所需的庞大的资源来说更适合微调，小模型微调之后在特定领域的能力可以媲美甚至超过大模型。（微调可以理解为：用单独领域的数据集对模型再次训练使其专业化）

在应用落地方面，比如一些agent应用的落地，更离不开本地模型的部署，那说了这么多，如何正确的本地部署一个大模型呢？小天这里只推荐两种方法，这两种方法也是当下比较正确和常用的。

通过Ollama工具快捷部署
通过vLLM高性能推理框架部署

本篇文章先讲通过ollama部署本地模型的方法。

那在本地部署之前，我们应该先明白当前的电脑配置能够运行什么参数的模型，不然我们辛辛苦苦下载了几十G的模型文件后，发现根本跑不动就尴尬了。

这里小天给大家一个可以快速估算的公式（最好自己电脑显存比这个结果多一些），如下图：

比如下面这个模型，部署它大概需要的显存的计算逻辑为：(8x8)/ 8x1.2=9.6G，也就是3060 12G显卡就可以跑，而且这个多模态的小模型能力也是相当不错。

这里涉及到两个概念：1.模型参数量 2.参数位宽。这俩个概念对于本地部署模型来说极其的重要，所以我觉得有必要说一下。

说之前大家要先了解一下魔搭社区，魔搭社区是阿里云的一个开源模型市场，里面有各种可下载的预训练好的模型以及数据集等，就像是中国版的Hugging Face。

链接：https://www.modelscope.cn/home

我们可以打开国内的模型市场——魔搭社区，然后搜索qwen3。

可以看到这些都有一个xxB的相关字样，比如30B、8B、235B这些字样，这些就是指得参数量，参数量越大就代表其掌握的知识越多，同时需要的显存越大！就比如图片上那个235B的模型需要的显存是500多G。这么大的显存，部署成本是相当大的。

我们点进去一个通义千问3-32B的模型中，在右侧部分可以看到这个模型的系谱，其中可以找到量化这一个分类。

点击这个分类，可以看到当前模型的量化版本，所谓量化其实就是指的是让模型尽量不变笨的情况下，节省部署显存。比如刚刚说的235B的模型经过4bit量化后，需要的显存就从500G降为了150G左右。

通过上图圈起来的部分，可以看到32B参数的qwen3文本对话模型的名称中包含，AWQ、FP8、GGUF、GPTQ，这些模型标识，对应的含义大家可以看下面这幅图：

其中AWQ是阿里最推荐的量化方法，你可以看到AWQ量化后的模型下载量一般都是最多的，而GGUF的模型格式则是我们接下来要讲的ollama主要支持的模型格式。这里要注意ollama主要支持的是gguf格式，而vllm可以支持绝大多数的模型格式，所以企业应用中大都是使用vllm部署模型而ollama多用于个人应用。

下面这些参数就代表了模型的位宽，比如FP8就是8bit的，GPTQ-Int4就是4bit的，同理GPTQ-Int8也是8bit的，INT4就是4bit的。默认的AWQ和GGUF方法则是4bit的位宽。

可能第一时间有点不好理解所以小天给大家总结一下，显存资源有限情况下，一般vLLM框架来说使用AWQ量化后即可，但如果你要使用ollama就用GGUF格式的。

这时候大家根据上面的公式再次估算一次下面的模型需要的现存是多少呢？

模型的参数是8B，所以P就是8，GGUF默认ollama拉取的是4bit量化的版本，所以Q就是4，那么最后的显存所需大概就是4.8G。

ollama部署教程

我们拿装有N卡的windows来举例子，mac和linux的安装方法都差不多，大家可以查看官网，ollama的官网如下：

https://ollama.com/download

安装ollama之前你需要确保你的N卡有英伟达的cuda驱动，可以运行：nvidia-smi 来查看是否有类似下面的输出：

如果没有的话需要到官方下载最新的显卡驱动，没有gpu也没关系，因为ollama可以将模型推理放在cpu上。驱动下载地址：

https://www.nvidia.cn/software/nvidia-app/

随后打开ollama官网后，找到你要的版本点击下载即可。

你需要在C盘留足够的空间因为ollama下载后是必须要安装在C盘的。当你安装好之后，可以输入：ollama -v 来查看是否安装成功，出现版本号就是安装成功了。

安装好了之后，我们需要设置一下模型文件默认存放的路径，不然你不设置他就把模型全放在c盘了。我们使用下面的命令设置ollama的模型安装路径（需要先创建对应文件夹）。

setx /M OLLAMA_MODELS "D:\Ollama\models"

或者通过ollama最新版的前端界面设置模型安装路径也可以。

注意运行之后需要关闭ollama后重新开一个命令行窗口。这样才会生效。

模型的安装也很简单，魔搭社区就支持ollama的命令行一键下载模型，所以我们找一个gguf格式的模型，复制这个网址。

然后运行下面的命令:

这里要注意的ollama run 后面的模型地址是我们刚刚复制的地址去掉http://以及 models/ 的结果哦（对于qwen来说）。

在任务管理器中可以看到没有询问模型的cpu和gpu占用情况：

ai在推理的过程中可以看到cpu和gpu的使用度都明显地变高了。

除了在命令行通过ollama run进行模型提问之外，你可以直接在ollama的前端界面中对自己部署的本地模型进行提问，当然你也可以使用Open WebUI等工具作为本地模型的可视化界面：

如果你想让ollama下载不是默认4bit量化的模型的话，其实也很简单，还是在魔搭社区GGUF格式模型页面，可以看到不同的量化情况。

比如我想让ollama拉去8bit量化的，就在模型拉取地址中加上:Q8_0即可，就像下面这样：

拉取命令为：

ollama run modelscope.cn/Qwen/Qwen3-8B-GGUF:Q8_0

至此，你已在本地完成 AI 部署，实现离线推理。但 Ollama 还能更强大，比如部署多模态模型、通过接口开放模型服务、灵活控制 CPU/GPU 分层加载、调整上下文与批量参数等，但是没关系，一切都是要循序渐进的来，这些我们在后续的文章会说。

如果大家到这里成功的部署了自己的模型，请给小天点个小小的关注哦，后续会给大家推出更进一步的教程和应用方法。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

为什么 Java 依然是最稳定、最具生命力的编程语言

在快节奏的技术时代，许多人追逐“新潮”，但真正的工程世界需要的是“稳定”。Java 就像是一座屹立不倒的灯塔，在潮起潮落的语言更替中，始终以稳健的姿态照亮无数开发者的道路。从企业级系统，到云原生服务，从数据计算到 AI 模型，Java 仍是现代软件世界最坚实的基石之一。只要工程化仍是软件开发的核心，Java 的王座就不会轻易动摇。

2048 AI社区

CodeWave进阶实战：CoreAgent自主智能体+智能资产接入，打造个性化业务工具

2048 AI社区

Causality-Inspired Single-Source DomainGeneralization for MedicalImage Segmentation复现

requirements.txt 文件中指定的库版本（如numpy==1.22.0, torch==1.3.0）都非常旧（大约是2019-2021年的版本），它们与你现在电脑上安装的、非常新的Python解释器（比如Python 3.9）以及相关的构建工具链不兼容。正如你遇到的问题，项目A可能需要numpy 1.22，但你的全局环境因为项目B已经装了numpy 2.0，强行降级会搞坏项目B，不降级