小白也能懂的大模型本地部署学习笔记
这篇文章记录了我作为一个新手,从“想学大模型”到真正在本地跑起来、并且理解背后原理的全过程。如果你也有一张 NVIDIA 显卡(我的显卡是 RTX 4070 Ti 12GB),那这篇文章可能正是你需要的。你将学到如何用 Ollama 一键部署大模型怎么看显存占用、理解量化如何定制自己的模型(改提示词、调参数)常见坑怎么踩、怎么跳出来下一步该学什么本地跑大模型不再是极客的专利。一张 4070 Ti
小白也能懂的大模型本地部署学习笔记
从零开始,用你的显卡跑起第一个大模型
写在前面
这篇文章记录了我作为一个新手,从“想学大模型”到真正在本地跑起来、并且理解背后原理的全过程。如果你也有一张 NVIDIA 显卡(我的显卡是 RTX 4070 Ti 12GB),那这篇文章可能正是你需要的。
你将学到:
- 如何用 Ollama 一键部署大模型
- 怎么看显存占用、理解量化
- 如何定制自己的模型(改提示词、调参数)
- 常见坑怎么踩、怎么跳出来
- 下一步该学什么
一、为什么要在本地跑大模型?
- 隐私:数据不出电脑
- 免费:不用买 API
- 学习:真正理解模型怎么工作,而不是只当调包侠
我的目标是:不只是跑起来,而是弄懂为什么能跑起来。
二、环境准备:一张 NVIDIA 显卡 + 一个工具
我的配置
- 显卡:RTX 4070 Ti(12GB 显存)
- 系统:Windows
- 工具:Ollama(免费、开源、简单)
安装 Ollama
在 Windows 上,直接去 ollama.com/download/windows 下载安装包安装就行。命令行安装可能遇到 SSL 报错,用安装包最省心。
💡 小贴士:安装完成后,打开终端(CMD 或 PowerShell),输入
ollama -v,看到版本号就说明成功了。
三、跑起第一个模型:Qwen2.5-7B
终端输入:
ollama run qwen2.5:7b
它会自动下载模型(约 4.7GB),然后出现 >>> 提示符,就可以对话了。
第一个问题
>>> 请介绍一下你自己
模型会回答它是阿里云通义千问。
观察显存占用
打开另一个终端,运行:
nvidia-smi -l 1
你会看到显存占用了大约 4.5~5GB。这就是 7B 模型经过 4-bit 量化后的“饭量”。
🧠 知识点:7B 模型原始 FP16 需要 14GB 显存,量化到 4-bit 只需要约 4GB。量化就是减少每个参数的精度,用更少的显存跑起来,而且通常不会太损失智能。
四、理解“量化”:自己动手对比
拉取不同量化级别的同一个模型
ollama run qwen2.5:7b # 默认 4-bit
ollama run qwen2.5:7b-q8_0 # 8-bit 量化(文件更大,质量更高)
同时用 nvidia-smi 看显存占用。8-bit 版本会吃掉大约 7~8GB。
你也可以用 ollama list 查看已下载的模型。
为什么 12GB 显存刚好?
- 7B 模型 4-bit 量化 → 约 4GB 显存
- KV Cache(存储上下文)→ 随对话变长而增长,1024 tokens 大约 0.5GB
- 其他开销(CUDA 上下文等)→ 约 0.5GB
所以 12GB 绰绰有余。但如果想跑 13B 模型,就得用 4-bit 量化 + 缩短上下文,12GB 会有点勉强。
五、认识 Ollama 的灵魂:Modelfile
Modelfile 就像一个“配方”,告诉 Ollama 怎么加载、怎么对话。
查看 Qwen 的 Modelfile:
ollama show --modelfile qwen2.5:7b
你会看到类似这样的内容:
FROM /path/to/model/weights
TEMPLATE """...复杂模板..."""
SYSTEM You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
PARAMETER temperature 0.7
关键字段
FROM:模型权重在哪TEMPLATE:把用户消息、系统提示拼成模型能理解的格式(比如<|im_start|>user\n你好\n<|im_end|>)SYSTEM:默认的系统提示词,决定模型“人设”PARAMETER:生成参数,如temperature(温度,值越高回答越随机)
六、自己动手定制模型
实验:让模型变成古诗词专家
创建一个文件 Modelfile(无扩展名),内容如下:
FROM qwen2.5:7b
SYSTEM 你是一位精通中国古诗词的学者,回答问题时请引用相关诗句。
PARAMETER temperature 0.8
在终端执行:
ollama create my-poet -f ./Modelfile
然后运行:
ollama run my-poet
>>> 什么是人生几何?
看,它会引用诗句来回答。这就叫 提示工程——不改变模型权重,只改提示词,就能改变行为。
七、翻车现场:小模型写诗不靠谱
我试着用 Llama 3.2(3B 小模型)写五言诗:
>>> 写一首关于夏天的五言诗
夏日炎热不已,
绿草弯弛无情眠,
风化草木深夜,
人心长眠余止。
数数字数:6字、7字、6字、6字——根本不是五言!
原因:
- Llama 3.2 训练数据英文多,中文古诗能力弱
- 小参数量模型对格式指令遵循能力差
解决方法:换回 Qwen2.5-7B,或者把提示词写得更明确:
请严格按照五言绝句格式,每句正好5个字,共4句。
💡 教训:不是所有模型都擅长所有任务。中文任务优先选国产模型(Qwen、Yi、DeepSeek)。
八、进阶学习地图
如果你也想像我一样“不只是会跑”,可以参考这个路线图:
阶段一:巩固基础(1-2天)
- 对比 Q4 和 Q8 模型的质量、速度、显存
- 长对话观察 KV Cache 增长
- 学会计算理论显存:
参数量×量化比特数/8 + 上下文开销
阶段二:深入量化与推理引擎(3-5天)
- 用
llama.cpp手动转换模型、量化 - 安装
vLLM,体验生产级推理性能
阶段三:模型定制与微调(1周)
- 玩转 Modelfile 的所有参数
- 用
unsloth做 LoRA 微调(喂你自己的数据)
阶段四:综合实战(2周)
- RAG:用 Ollama + LangChain 做本地知识库问答
- 搭建一个简单的聊天界面(Gradio / Streamlit)
- 设计评测集,对比不同模型的中文能力
九、常见问题(小白踩坑记录)
| 问题 | 解决方案 |
|---|---|
curl: (56) schannel: server closed abruptly |
直接去官网下载安装包,别用命令行安装 |
Error: pull model manifest: file does not exist |
检查模型名是否拼写错误,用 ollama list 查看已有模型 |
| 刷新页面就 404(前端项目) | Nginx 需要配置 try_files $uri $uri/ /index.html; |
| 写古诗格式不对 | 换模型,或者把提示词写得更详细(甚至给例子) |
十、推荐学习资源
- Ollama 官方文档:github.com/ollama/ollama
- 量化论文:LLM.int8()、GPTQ
- 推理优化:vLLM 博客
- 动手教程:Andrej Karpathy 的 nanoGPT
- 国产模型:通义千问(Qwen)、DeepSeek、Yi
写在最后
本地跑大模型不再是极客的专利。一张 4070 Ti + Ollama,你就能拥有一台离线、免费、可定制的 AI 助手。而最重要的是——动手做,在命令行里敲下 ollama run qwen2.5:7b 的那一刻,你就已经超越了很多只看不练的人。
下一步,去试试 ollama run qwen2.5:14b(可能有点卡),或者用你自己的数据微调一个模型。祝你学习愉快!
本文基于真实学习对话整理,记录了从零到一的全过程。如果你遇到任何问题,欢迎留言交流。
更多推荐


所有评论(0)