小白也能懂的大模型本地部署学习笔记

君子使物，不为物使

439人浏览 · 2026-05-27 15:02:05

君子使物，不为物使 · 2026-05-27 15:02:05 发布

小白也能懂的大模型本地部署学习笔记

从零开始，用你的显卡跑起第一个大模型

写在前面

这篇文章记录了我作为一个新手，从“想学大模型”到真正在本地跑起来、并且理解背后原理的全过程。如果你也有一张 NVIDIA 显卡（我的显卡是 RTX 4070 Ti 12GB），那这篇文章可能正是你需要的。

你将学到：

如何用 Ollama 一键部署大模型
怎么看显存占用、理解量化
如何定制自己的模型（改提示词、调参数）
常见坑怎么踩、怎么跳出来
下一步该学什么

一、为什么要在本地跑大模型？

隐私：数据不出电脑
免费：不用买 API
学习：真正理解模型怎么工作，而不是只当调包侠

我的目标是：不只是跑起来，而是弄懂为什么能跑起来。

二、环境准备：一张 NVIDIA 显卡 + 一个工具

我的配置

显卡：RTX 4070 Ti（12GB 显存）
系统：Windows
工具：Ollama（免费、开源、简单）

安装 Ollama

在 Windows 上，直接去 ollama.com/download/windows 下载安装包安装就行。命令行安装可能遇到 SSL 报错，用安装包最省心。

💡 小贴士：安装完成后，打开终端（CMD 或 PowerShell），输入 ollama -v，看到版本号就说明成功了。

三、跑起第一个模型：Qwen2.5-7B

终端输入：

ollama run qwen2.5:7b

它会自动下载模型（约 4.7GB），然后出现 >>> 提示符，就可以对话了。

第一个问题

>>> 请介绍一下你自己

模型会回答它是阿里云通义千问。

观察显存占用

打开另一个终端，运行：

nvidia-smi -l 1

你会看到显存占用了大约 4.5~5GB。这就是 7B 模型经过 4-bit 量化后的“饭量”。

🧠 知识点：7B 模型原始 FP16 需要 14GB 显存，量化到 4-bit 只需要约 4GB。量化就是减少每个参数的精度，用更少的显存跑起来，而且通常不会太损失智能。

四、理解“量化”：自己动手对比

拉取不同量化级别的同一个模型

ollama run qwen2.5:7b        # 默认 4-bit
ollama run qwen2.5:7b-q8_0   # 8-bit 量化（文件更大，质量更高）

同时用 nvidia-smi 看显存占用。8-bit 版本会吃掉大约 7~8GB。

你也可以用 ollama list 查看已下载的模型。

为什么 12GB 显存刚好？

7B 模型 4-bit 量化 → 约 4GB 显存
KV Cache（存储上下文）→ 随对话变长而增长，1024 tokens 大约 0.5GB
其他开销（CUDA 上下文等）→ 约 0.5GB

所以 12GB 绰绰有余。但如果想跑 13B 模型，就得用 4-bit 量化 + 缩短上下文，12GB 会有点勉强。

五、认识 Ollama 的灵魂：Modelfile

Modelfile 就像一个“配方”，告诉 Ollama 怎么加载、怎么对话。

查看 Qwen 的 Modelfile：

ollama show --modelfile qwen2.5:7b

你会看到类似这样的内容：

FROM /path/to/model/weights
TEMPLATE """...复杂模板..."""
SYSTEM You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
PARAMETER temperature 0.7

关键字段

FROM：模型权重在哪
TEMPLATE：把用户消息、系统提示拼成模型能理解的格式（比如 <|im_start|>user\n你好\n<|im_end|>）
SYSTEM：默认的系统提示词，决定模型“人设”
PARAMETER：生成参数，如 temperature（温度，值越高回答越随机）

六、自己动手定制模型

实验：让模型变成古诗词专家

创建一个文件 Modelfile（无扩展名），内容如下：

FROM qwen2.5:7b
SYSTEM 你是一位精通中国古诗词的学者，回答问题时请引用相关诗句。
PARAMETER temperature 0.8

在终端执行：

ollama create my-poet -f ./Modelfile

然后运行：

ollama run my-poet
>>> 什么是人生几何？

看，它会引用诗句来回答。这就叫 提示工程——不改变模型权重，只改提示词，就能改变行为。

七、翻车现场：小模型写诗不靠谱

我试着用 Llama 3.2（3B 小模型）写五言诗：

>>> 写一首关于夏天的五言诗
夏日炎热不已,
绿草弯弛无情眠,
风化草木深夜，
人心长眠余止。

数数字数：6字、7字、6字、6字——根本不是五言！

原因：

Llama 3.2 训练数据英文多，中文古诗能力弱
小参数量模型对格式指令遵循能力差

解决方法：换回 Qwen2.5-7B，或者把提示词写得更明确：

请严格按照五言绝句格式，每句正好5个字，共4句。

💡 教训：不是所有模型都擅长所有任务。中文任务优先选国产模型（Qwen、Yi、DeepSeek）。

八、进阶学习地图

如果你也想像我一样“不只是会跑”，可以参考这个路线图：

阶段一：巩固基础（1-2天）

对比 Q4 和 Q8 模型的质量、速度、显存
长对话观察 KV Cache 增长
学会计算理论显存：参数量×量化比特数/8 + 上下文开销

阶段二：深入量化与推理引擎（3-5天）

用 llama.cpp 手动转换模型、量化
安装 vLLM，体验生产级推理性能

阶段三：模型定制与微调（1周）

玩转 Modelfile 的所有参数
用 unsloth 做 LoRA 微调（喂你自己的数据）

阶段四：综合实战（2周）

RAG：用 Ollama + LangChain 做本地知识库问答
搭建一个简单的聊天界面（Gradio / Streamlit）
设计评测集，对比不同模型的中文能力

九、常见问题（小白踩坑记录）

问题	解决方案
`curl: (56) schannel: server closed abruptly`	直接去官网下载安装包，别用命令行安装
`Error: pull model manifest: file does not exist`	检查模型名是否拼写错误，用 `ollama list` 查看已有模型
刷新页面就 404（前端项目）	Nginx 需要配置 `try_files $uri $uri/ /index.html;`
写古诗格式不对	换模型，或者把提示词写得更详细（甚至给例子）

十、推荐学习资源

Ollama 官方文档：github.com/ollama/ollama
量化论文：LLM.int8()、GPTQ
推理优化：vLLM 博客
动手教程：Andrej Karpathy 的 nanoGPT
国产模型：通义千问（Qwen）、DeepSeek、Yi

写在最后

本地跑大模型不再是极客的专利。一张 4070 Ti + Ollama，你就能拥有一台离线、免费、可定制的 AI 助手。而最重要的是——动手做，在命令行里敲下 ollama run qwen2.5:7b 的那一刻，你就已经超越了很多只看不练的人。

下一步，去试试 ollama run qwen2.5:14b（可能有点卡），或者用你自己的数据微调一个模型。祝你学习愉快！

本文基于真实学习对话整理，记录了从零到一的全过程。如果你遇到任何问题，欢迎留言交流。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从零到商用：MJ+SD+Krita+ComfyUI全流程AIGC设计实战

*真正能投入商用的设计，需要一场“组合拳”——将 MJ 的创意发散、SD 的精细调参、Krita 的手绘修正、ComfyUI 的工作流自动化串联成一条可复用的生产线**。**“MJ + SD + Krita + ComfyUI” 并非四个独立工具的简单叠加，而是构成了一条完整的供应链**：MJ 负责快速验证市场方向，SD 负责量产与定制，Krita 担任品检与修复，ComfyUI 担任包装。- *