小白也能懂的大模型本地部署学习笔记

从零开始,用你的显卡跑起第一个大模型

写在前面

这篇文章记录了我作为一个新手,从“想学大模型”到真正在本地跑起来、并且理解背后原理的全过程。如果你也有一张 NVIDIA 显卡(我的显卡是 RTX 4070 Ti 12GB),那这篇文章可能正是你需要的。

你将学到

  • 如何用 Ollama 一键部署大模型
  • 怎么看显存占用、理解量化
  • 如何定制自己的模型(改提示词、调参数)
  • 常见坑怎么踩、怎么跳出来
  • 下一步该学什么

一、为什么要在本地跑大模型?

  • 隐私:数据不出电脑
  • 免费:不用买 API
  • 学习:真正理解模型怎么工作,而不是只当调包侠

我的目标是:不只是跑起来,而是弄懂为什么能跑起来


二、环境准备:一张 NVIDIA 显卡 + 一个工具

我的配置

  • 显卡:RTX 4070 Ti(12GB 显存)
  • 系统:Windows
  • 工具:Ollama(免费、开源、简单)

安装 Ollama

在 Windows 上,直接去 ollama.com/download/windows 下载安装包安装就行。命令行安装可能遇到 SSL 报错,用安装包最省心。

💡 小贴士:安装完成后,打开终端(CMD 或 PowerShell),输入 ollama -v,看到版本号就说明成功了。


三、跑起第一个模型:Qwen2.5-7B

终端输入:

ollama run qwen2.5:7b

它会自动下载模型(约 4.7GB),然后出现 >>> 提示符,就可以对话了。

第一个问题

>>> 请介绍一下你自己

模型会回答它是阿里云通义千问。

观察显存占用

打开另一个终端,运行:

nvidia-smi -l 1

你会看到显存占用了大约 4.5~5GB。这就是 7B 模型经过 4-bit 量化后的“饭量”。

🧠 知识点:7B 模型原始 FP16 需要 14GB 显存,量化到 4-bit 只需要约 4GB。量化就是减少每个参数的精度,用更少的显存跑起来,而且通常不会太损失智能。


四、理解“量化”:自己动手对比

拉取不同量化级别的同一个模型

ollama run qwen2.5:7b        # 默认 4-bit
ollama run qwen2.5:7b-q8_0   # 8-bit 量化(文件更大,质量更高)

同时用 nvidia-smi 看显存占用。8-bit 版本会吃掉大约 7~8GB。

你也可以用 ollama list 查看已下载的模型。

为什么 12GB 显存刚好?

  • 7B 模型 4-bit 量化 → 约 4GB 显存
  • KV Cache(存储上下文)→ 随对话变长而增长,1024 tokens 大约 0.5GB
  • 其他开销(CUDA 上下文等)→ 约 0.5GB

所以 12GB 绰绰有余。但如果想跑 13B 模型,就得用 4-bit 量化 + 缩短上下文,12GB 会有点勉强。


五、认识 Ollama 的灵魂:Modelfile

Modelfile 就像一个“配方”,告诉 Ollama 怎么加载、怎么对话。

查看 Qwen 的 Modelfile:

ollama show --modelfile qwen2.5:7b

你会看到类似这样的内容:

FROM /path/to/model/weights
TEMPLATE """...复杂模板..."""
SYSTEM You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
PARAMETER temperature 0.7

关键字段

  • FROM:模型权重在哪
  • TEMPLATE:把用户消息、系统提示拼成模型能理解的格式(比如 <|im_start|>user\n你好\n<|im_end|>
  • SYSTEM:默认的系统提示词,决定模型“人设”
  • PARAMETER:生成参数,如 temperature(温度,值越高回答越随机)

六、自己动手定制模型

实验:让模型变成古诗词专家

创建一个文件 Modelfile(无扩展名),内容如下:

FROM qwen2.5:7b
SYSTEM 你是一位精通中国古诗词的学者,回答问题时请引用相关诗句。
PARAMETER temperature 0.8

在终端执行:

ollama create my-poet -f ./Modelfile

然后运行:

ollama run my-poet
>>> 什么是人生几何?

看,它会引用诗句来回答。这就叫 提示工程——不改变模型权重,只改提示词,就能改变行为。


七、翻车现场:小模型写诗不靠谱

我试着用 Llama 3.2(3B 小模型)写五言诗:

>>> 写一首关于夏天的五言诗
夏日炎热不已,
绿草弯弛无情眠,
风化草木深夜,
人心长眠余止。

数数字数:6字、7字、6字、6字——根本不是五言!

原因

  • Llama 3.2 训练数据英文多,中文古诗能力弱
  • 小参数量模型对格式指令遵循能力差

解决方法:换回 Qwen2.5-7B,或者把提示词写得更明确:

请严格按照五言绝句格式,每句正好5个字,共4句。

💡 教训:不是所有模型都擅长所有任务。中文任务优先选国产模型(Qwen、Yi、DeepSeek)。


八、进阶学习地图

如果你也想像我一样“不只是会跑”,可以参考这个路线图:

阶段一:巩固基础(1-2天)

  • 对比 Q4 和 Q8 模型的质量、速度、显存
  • 长对话观察 KV Cache 增长
  • 学会计算理论显存:参数量×量化比特数/8 + 上下文开销

阶段二:深入量化与推理引擎(3-5天)

  • llama.cpp 手动转换模型、量化
  • 安装 vLLM,体验生产级推理性能

阶段三:模型定制与微调(1周)

  • 玩转 Modelfile 的所有参数
  • unsloth 做 LoRA 微调(喂你自己的数据)

阶段四:综合实战(2周)

  • RAG:用 Ollama + LangChain 做本地知识库问答
  • 搭建一个简单的聊天界面(Gradio / Streamlit)
  • 设计评测集,对比不同模型的中文能力

九、常见问题(小白踩坑记录)

问题 解决方案
curl: (56) schannel: server closed abruptly 直接去官网下载安装包,别用命令行安装
Error: pull model manifest: file does not exist 检查模型名是否拼写错误,用 ollama list 查看已有模型
刷新页面就 404(前端项目) Nginx 需要配置 try_files $uri $uri/ /index.html;
写古诗格式不对 换模型,或者把提示词写得更详细(甚至给例子)

十、推荐学习资源


写在最后

本地跑大模型不再是极客的专利。一张 4070 Ti + Ollama,你就能拥有一台离线、免费、可定制的 AI 助手。而最重要的是——动手做,在命令行里敲下 ollama run qwen2.5:7b 的那一刻,你就已经超越了很多只看不练的人。

下一步,去试试 ollama run qwen2.5:14b(可能有点卡),或者用你自己的数据微调一个模型。祝你学习愉快!


本文基于真实学习对话整理,记录了从零到一的全过程。如果你遇到任何问题,欢迎留言交流。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐