多模态能力在工程上到底什么时候才“值得上“？

本文探讨了多模态AI（图像、语音、视频）在实际工程中的挑战与边界。图像处理成本高昂（每张图约1000-2000 tokens），准确率（60-80%）明显低于文本（85-95%），且调试难度大。语音识别适合清晰音频场景，但方言/嘈杂环境效果不佳。视频处理成本最高（每分钟约30K tokens），仅适用于关键场景。工程决策应权衡成本、准确率和调试难度，避免盲目使用多模态技术，而应针对特定场景选择最优

官能

234人浏览 · 2026-02-06 10:33:48

官能 · 2026-02-06 10:33:48 发布

LLM 工程决策系列（03/14）

这是「LLM 工程决策系列」的第 3 篇，共 14 篇。
我们不讲技术原理，只讲什么时候值得用，什么时候不值得用。

📚 系列导航

状态	篇号	标题
✅ 已发布	01	从 CoT 到 o1-style：大模型"强推理"能力到底升级了什么？
✅ 已发布	02	长上下文不是银弹：模型"能装下"和"能理解"的差别
✅ 已发布	03	多模态能力在工程上到底什么时候才"值得上"？ ← 你在这里
📅 即将	04	推理成本是如何被"一点点榨干"的：从量化到投机解码
📅 即将	05	模型对齐不是一句"安全"，而是三层工程问题
📅 即将	06-09	RAG 系列（能查 → 查得准 → 自救 → GraphRAG）
📅 即将	10-11	工具与 MCP（Function Calling、MCP）
📅 即将	12-13	Agent 系统（单 Agent → 多 Agent）
📅 即将	14	LLMOps（从 Demo 到生产）

工程问题：多模态不是炫技，而是复杂度指数级上升

你的系统成本爆炸的那一刻，通常是这样的：

周一：用纯文本做 MVP，成本 $0.01 / 次，用户很满意
周二：CEO 说"能不能支持上传图片"，你加了图像理解
周三：成本变成 $0.15 / 次（15x），但准确率反而下降了
- 为什么？因为图像理解准确率（60-80%）远低于文本理解（85-95%）
- 结果：用户投诉"识别错了"
周四：用户又说"能不能支持视频"，你开始考虑视频理解
周五：你算了一下成本，一个 10 分钟视频 = $0.375，一天 1000 个视频 = $375，一个月 = $11,250
- 你开始后悔，“为什么不在第一天就评估成本呢”

这不是"能不能做"的问题，而是"为什么你没有从第一天就选对工具"。

在实际工程中，你会发现：

成本爆炸：一张图片 = 1000-2000 tokens，一个视频 = 100K+ tokens
准确率下降：图像理解（60-80%）远低于文本理解（85-95%）
调试地狱：文本错了可以看 log，图像错了怎么调试？

关键是：多模态不是"加个功能"，而是"输入复杂度指数级上升"。

文本输入：1 维（序列）
图像输入：2 维（像素矩阵）
视频输入：3 维（时间 × 像素矩阵）

每增加一个维度，工程复杂度不是 2x，而是 10x。

快速判断：你该用多模态还是纯文本？

你的情况	推荐方案	成本	准确率	延迟	适用人群
简单 OCR（发票、身份证）	传统 OCR	1x	95%+	1-2s	成本敏感
复杂 OCR（截图、手写）	VLM	10x	80-90%	3-10s	准确率可接受
图表分析（精准数值）	数据源 + 文本	1x	99%+	1s	金融、数据分析
图表探索（趋势理解）	VLM	10x	70-80%	3-10s	用户探索
视频摘要（低频）	视频理解	100x	60-70%	30s-5min	会议、讲座
视频分析（高频）	图像分类	10x	80-90%	5-10s	监控、审核

找到你的情况了吗？下面我们逐项展开。

技术选项对比：文本 vs 图像 vs 视频的工程代价

	纯文本	图像（VLM）	视频
成本	1x	10x-20x	100x-500x
准确率	85-95%	60-80%	40-60%
延迟	1-3s	3-10s	30s-5min
调试难度	低（可读 log）	中（需要看图）	高（需要看视频）
适用场景	通用	图表分析、OCR、UI 理解	视频摘要、监控分析
失败模式	幻觉（可检测）	误识别（难检测）	时序混乱（极难检测）

这不是性能对比，而是工程代价对比。下面我们逐项展开。

图像理解（VLM）的演进：从纯文本到多模态

第一阶段：纯文本 - 基准

什么是纯文本？

用户只能通过"文字描述"来表达需求
模型只能通过"文字"来理解和回答

工程特点：

成本：基准 1x
准确率：85-95%（高）
延迟：1-3s（稳定）
调试难度：低（可读 log）

什么时候值得用？

✅ 用户能清楚描述问题（比如"这个代码有 bug 吗"）
✅ 问题不涉及"视觉信息"（比如文本分类、代码审查）
✅ 成本敏感（每天百万级调用）

纯文本的局限性：

如果用户问"这个图表的趋势是什么"，需要用户先"描述图表"
描述过程容易出错（“我看到一条上升的线”，但实际是下降的）
结果：模型基于错误的描述，给出错误的答案

什么时候纯文本不够？

用户需要上传图片（比如"识别这张发票"）
用户需要上传截图（比如"这个 UI 有什么问题"）
用户需要上传图表（比如"分析这个数据"）

第二阶段：图像理解（VLM）- 为什么需要？

为什么需要图像理解？

当你遇到这些问题时，纯文本就不够了：

用户上传图片，问"这是什么"
用户上传截图，问"这个按钮在哪里"
用户上传图表，问"趋势是什么"

图像理解的承诺：

“我可以直接看图片，不需要用户描述”
“我可以识别图片中的文字、物体、关系”
“我可以理解图表、UI、设计”

但代价是什么？

第二阶段的成本分析：为什么是 10x-20x？

一张图片 = 1000-2000 tokens

VLM（Vision-Language Model）的工作原理是：

把图像切成 N × N 的小块（比如 16×16 像素一块）
每个小块转成一个 token
用 Transformer 处理这些 token

成本计算：

一张 1024×1024 的图片
切成 16×16 像素一块 = 64×64 = 4096 个块
每个块 = 1 个 token
总成本：4096 tokens ≈ 2000 tokens（经过压缩）

对比文本：

2000 tokens 的文本 ≈ 1500 个英文单词 ≈ 3-4 页 A4 纸
一张图片的成本 = 3-4 页文字的成本

实际成本对比：

假设你的系统每次调用生成 500 tokens：

方案 A：纯文本

输入：500 tokens × $0.03/1M = $0.000015
输出：500 tokens × $0.06/1M = $0.00003
总成本：$0.000045 / 次

方案 B：图像 + 文本

输入：2000 tokens（图像）+ 100 tokens（问题）= 2100 tokens × $0.03/1M = $0.000063
输出：500 tokens × $0.06/1M = $0.00003
总成本：$0.000093 / 次

成本放大：$0.000093 / $0.000045 ≈ 2x

但实际上，云服务商对图像有单独定价：

GPT-4V：$0.01 / 图片（1024×1024）
Claude 3：$0.008 / 图片（1024×1024）

实际成本对比：

纯文本：$0.000045 / 次
图像 + 文本：$0.01 / 次
成本放大：200x

如果你的系统每天调用 10 万次：

纯文本：$4.5 / 天
图像 + 文本：$1,000 / 天
成本差异：$995.5 / 天

工程结论： 图像不是"免费的输入"，而是"昂贵的输入"。

第二阶段的准确率分析：为什么是 60-80%？

VLM 的准确率问题：

OCR 准确率：80-90%
- 印刷体：90%+
- 手写体：70-80%
- 复杂背景：60-70%
图表理解准确率：60-80%
- 简单柱状图：80%+
- 复杂折线图：70%
- 多维度图表：60%
UI 理解准确率：50-70%
- 简单界面：70%
- 复杂界面：50-60%
- 动态界面：40-50%

对比纯文本理解：

纯文本理解准确率：85-95%
图像理解准确率：60-80%
准确率差距：15-25 个百分点

为什么准确率这么低？

图像信息密度高：一张图可能包含几十个元素
空间关系复杂：元素之间的位置关系难以理解
上下文缺失：图像本身没有"上下文"，需要额外的文本说明

工程结论： VLM 不是"万能的图像理解"，而是"通用但不精准的图像理解"。

第三阶段：图像理解 + 优化技术 - 如何提高准确率？

如果你必须用图像理解，怎么提高准确率？

有两种优化技术可以帮助你：

优化 1：用专门的模型替代 VLM

为什么需要专门模型？

VLM 是"通用"的，但"不精准"
专门模型是"专用"的，但"精准"

典型场景：

OCR 场景：

VLM 准确率：80-90%
专门 OCR 模型（Tesseract / PaddleOCR）：95%+
成本：$0.001 / 张（是 VLM 的 1/10）

图表分析场景：

VLM 准确率：70%（容易误读数值）
直接用数据源（CSV / JSON）：99%+
成本：$0（直接读文件）

UI 定位场景：

VLM 准确率：70%（容易定位错误）
传统 UI 测试框架（Selenium / Playwright）：95%+
成本：$0（开源工具）

工程代价：

准确率：提升 10-20 个百分点
成本：降低 10x-100x
适用性：只对"特定场景"有效

什么时候值得用专门模型？

✅ 有现成的专门模型（OCR、图表识别）
✅ 准确率要求高（金融、医疗）
✅ 成本敏感（高频调用）

成本对比：

VLM：$0.01 / 图片
专门 OCR：$0.001 / 张
成本降低：10x

优化 2：混合策略 - VLM + 后处理

什么是混合策略？

不是"全用 VLM"，也不是"全用专门模型"
而是"VLM 初步理解 + 后处理验证"

混合策略的思路：

用 VLM 初步理解图像（成本 $0.01）
用规则 / 启发式方法验证结果（成本 $0）
如果不确定，再用专门模型（成本 $0.001）

工程代价：

准确率：提升 5-10 个百分点
成本：增加 5-10%（后处理成本）
复杂度：中（需要设计验证规则）

什么时候值得用混合策略？

✅ 有明确的"验证规则"（比如 OCR 结果的格式检查）
✅ 准确率要求中等（80-90%）
✅ 成本和准确率都很重要

一个典型的场景：

某发票识别系统用混合策略：

VLM 识别发票金额：$0.01
后处理验证：检查金额格式、数值范围（$0）
如果不确定，用专门 OCR：$0.001

成本：

大多数情况：$0.01 / 张（VLM）
不确定情况：$0.011 / 张（VLM + OCR）
平均成本：$0.0105 / 张

对比：

全用 VLM：$0.01 / 张，准确率 80%
全用专门 OCR：$0.001 / 张，准确率 95%
混合策略：$0.0105 / 张，准确率 90%
混合策略在成本和准确率间找到平衡

第四阶段：轻量级折中方案 - 什么时候不用多模态？

什么是轻量级折中方案？

不是"全用多模态"，也不是"全用纯文本"
而是"在成本和收益间找平衡"

轻量级折中方案的思路：

对于"必须用图像"的场景，用 VLM
对于"可以用文本替代"的场景，用纯文本
对于"有专门模型"的场景，用专门模型

工程代价：

成本：1x-10x（取决于混合比例）
准确率：85-95%（接近纯文本）
复杂度：中（需要设计场景判断）

什么时候值得用轻量级折中方案？

✅ 有"必须用图像"和"可以用文本"的混合场景
✅ 成本和准确率都很重要
✅ 用户体验不能妥协

一个典型的场景：

某客服系统用轻量级折中方案：

用户上传图片 → 用 VLM 理解（成本 $0.01）
用户描述问题 → 用纯文本理解（成本 $0）
用户上传发票 → 用专门 OCR（成本 $0.001）

成本：

纯文本问题：$0 / 次
图像问题：$0.01 / 次
发票问题：$0.001 / 次
平均成本：$0.003 / 次（取决于混合比例）

对比：

全用 VLM：$0.01 / 次
全用纯文本：$0 / 次（但无法处理图像）
轻量级折中：$0.003 / 次（最优）

一个典型的反面案例

某团队决定"全面支持多模态"，把所有输入都改成"文本 + 图像"。

失败原因解剖：

成本爆炸
- 原来每次调用 $0.000045（纯文本）
- 现在每次调用 $0.01（图像）
- 成本增加 200x
准确率下降
- 原来准确率 90%（纯文本）
- 现在准确率 75%（图像）
- 准确率下降 15 个百分点
用户体验变差
- 原来延迟 1-3s
- 现在延迟 3-10s
- 用户投诉"变慢了"
调试成本增加
- 原来看 log 就能找到错误
- 现在需要看图片、猜测模型理解了什么
- 调试时间增加 10x

如果用轻量级折中方案替代：

成本：$0.003 / 次（降低 3x）
准确率：85%（提升 10 个百分点）
延迟：1-5s（降低 1-2s）
调试成本：降低 5x
结论：轻量级折中在所有维度都更优

这个案例的教训：

❌ 不要盲目追求"全模态"
✅ 要思考"什么时候真的需要多模态"
✅ 精准选择 + 混合策略，通常优于"全面多模态 + 祈祷准确率够用"

视频理解：成本与收益的极限挑战

视频理解的成本：一个视频 = 100K+ tokens

为什么视频这么贵？

视频 = 图像序列：

1 分钟视频 = 30 帧/秒 × 60 秒 = 1800 帧
每帧 = 2000 tokens
总成本：1800 × 2000 = 3.6M tokens

实际优化：

抽帧：每秒取 1 帧（而不是 30 帧）→ 60 帧
降分辨率：512×512（而不是 1024×1024）→ 500 tokens/帧
优化后成本：60 × 500 = 30K tokens

实际成本：

Gemini 1.5 Pro：$0.00125 / 1K tokens（输入）
1 分钟视频（30K tokens）：$0.0375
10 分钟视频：$0.375
1 小时视频：$2.25

如果你的系统每天处理 1000 个视频（每个 10 分钟）：

成本：$375 / 天 = $11,250 / 月

对比图像理解：

一张图片：$0.01
一个 10 分钟视频（60 帧）：$0.375
视频成本是图像的 37x

工程结论： 视频理解的成本是图像的 10x-50x。

视频理解的准确率：40-60%

视频理解的难点：

时序理解：需要理解"前后帧"的关系
长时依赖：需要记住"10 秒前发生了什么"
多模态融合：需要同时理解"画面 + 声音 + 字幕"

视频理解的准确率：

简单场景（单人讲话）：60-70%
复杂场景（多人对话、快速切换）：40-50%
长视频（1 小时+）：30-40%

对比图像理解：

图像理解准确率：60-80%
视频理解准确率：40-60%
准确率差距：20 个百分点

工程结论： 视频理解的准确率远低于图像理解。

视频理解的典型场景

什么时候视频理解是值得的？

✅ 视频摘要（低频、高价值）

典型场景：会议录像 → 自动生成摘要
为什么视频理解成立：人工看完 1 小时视频需要 1 小时，视频理解只需要 1 分钟
成本：$2.25 / 小时（可接受）
准确率：60-70%（可接受，因为是"摘要"而不是"精准信息"）

✅ 监控分析（安全刚需）

典型场景：监控录像 → 自动识别异常行为
为什么视频理解成立：人工看监控成本极高，视频理解可以 24/7 运行
成本：虽然高，但比人工低
准确率：60-70%（可接受，因为是"异常检测"而不是"精准分类"）

❌ 高频视频分析

典型场景：短视频平台的内容审核（每天百万级视频）
为什么视频理解不成立：成本爆炸（$375 / 1000 视频 × 1000 = $375,000 / 天）
替代方案：图像分类模型（抽帧 + 分类）

工程结论： 视频理解适合"低频、高价值"场景，不适合"高频、成本敏感"场景。

第四阶段：语音理解（ASR）- 成本与准确率的权衡

为什么需要 ASR？

当你遇到这些问题时，就需要升级到第四阶段：

用户需要上传音频（比如"转录这个会议录音"）
需要从语音中提取信息（比如"识别说话人"）
文本描述无法准确表达音频内容

ASR 的机制：

把音频转成文本
然后用文本理解模型处理
结果：成本 = 音频处理成本 + 文本处理成本

ASR 的真实成本：

根据 2024-2025 年的研究：

OpenAI Whisper API：$0.006 / 分钟
Google Cloud Speech-to-Text：$0.004 / 分钟
Azure Speech Services：$0.001 / 分钟

实际成本对比：

1 小时音频（60 分钟）：$0.36-$0.36（OpenAI）
对比视频理解（1 小时）：$2.25
ASR 成本是视频理解的 1/6

ASR 的准确率：

清晰音频（工作室录音）：95%+
普通音频（会议、讲座）：90-95%
嘈杂音频（街道、餐厅）：70-85%

什么时候值得用 ASR？

✅ 用户上传音频（比如语音备忘录）
✅ 需要转录（比如会议记录）
✅ 成本敏感（ASR 比视频理解便宜 6x）
❌ 需要"说话人识别"（需要额外的模型）
❌ 需要"情感分析"（需要额外的模型）

工程结论： ASR 是"成本最低的多模态"，适合音频转录场景。

第五阶段：语音生成（TTS）- 输出多模态

为什么需要 TTS？

当你遇到这些问题时，就需要升级到第五阶段：

用户需要"听"回答（比如"朗读这篇文章"）
需要生成语音内容（比如"生成播客"）
文本输出不够（需要多模态输出）

TTS 的机制：

把文本转成语音
可以控制语速、语调、说话人等
结果：成本 = 文本处理成本 + 语音生成成本

TTS 的真实成本：

根据 2024-2025 年的研究：

OpenAI TTS：$0.015 / 1K 字符
Google Cloud Text-to-Speech：$0.004 / 1K 字符
Azure Text-to-Speech：$0.0005 / 1K 字符

实际成本对比：

1000 字文章：$0.015（OpenAI）
对比 ASR（1 小时音频）：$0.36
TTS 成本是 ASR 的 1/24

TTS 的质量：

自然度：80-90%（听起来像真人）
多语言支持：50+ 语言
说话人选择：10-100+ 种

什么时候值得用 TTS？

✅ 需要"可访问性"（比如为视障用户朗读）
✅ 需要"多模态输出"（比如生成播客）
✅ 成本敏感（TTS 成本极低）
❌ 需要"自然对话"（TTS 仍然听起来像机器）
❌ 需要"情感表达"（TTS 无法表达复杂情感）

工程结论： TTS 是"成本最低的输出多模态"，适合可访问性和播客生成。

第六阶段：任意模态转换（Any-to-Any）- 多模态的终极形态

为什么需要 Any-to-Any？

当你遇到这些问题时，就需要升级到第六阶段：

用户需要"任意模态转换"（比如"把这个视频转成文章"）
需要"跨模态理解"（比如"这个图片和这个视频有什么关系"）
单一模态转换不够

Any-to-Any 的机制：

把任意输入模态转成任意输出模态
比如：视频 → 文章、图片 → 音频、音频 → 视频等
结果：成本 = 输入处理 + 跨模态转换 + 输出生成

Any-to-Any 的真实成本：

根据 2024-2025 年的研究：

Gemini 1.5 Pro（支持任意模态）：$0.00125 / 1K tokens（输入）
视频 → 文章：$0.375（视频处理）+ $0.01（文本生成）= $0.385
图片 → 音频：$0.01（图片处理）+ $0.015（音频生成）= $0.025

Any-to-Any 的准确率：

视频 → 文章：60-70%（准确率取决于视频质量）
图片 → 音频：70-80%（需要先理解图片）
音频 → 视频：40-50%（最难的转换）

什么时候值得用 Any-to-Any？

✅ 需要"跨模态理解"（比如"这个图片和这个视频有什么关系"）
✅ 需要"任意模态转换"（比如"把这个视频转成文章"）
✅ 用户体验很重要（比如"生成多模态内容"）
❌ 成本敏感（Any-to-Any 成本很高）
❌ 准确率要求高（Any-to-Any 准确率不稳定）

工程结论： Any-to-Any 是"多模态的终极形态"，但成本高、准确率不稳定，只适合"高价值、低频"场景。

第七阶段：多模态 RAG - 检索 + 多模态理解

为什么需要多模态 RAG？

当你遇到这些问题时，就需要升级到第七阶段：

需要"从多模态文档中检索信息"（比如"从 PDF 中找出相关的图表"）
需要"多模态理解 + 检索"（比如"这个问题和哪些图片相关"）
单纯的文本 RAG 不够

多模态 RAG 的机制：

把文档拆成"文本块"和"图像块"
对文本块做向量化（文本 embedding）
对图像块做向量化（图像 embedding）
用户问题来了，同时检索文本和图像
把检索结果（文本 + 图像）一起送给模型

多模态 RAG 的真实成本：

根据 2024-2025 年的研究：

文本 RAG：$0.05 / 次（检索 + 生成）
多模态 RAG：$0.15 / 次（检索文本 + 检索图像 + 生成）
成本增加：3x

多模态 RAG 的准确率：

文本 RAG：85-90%
多模态 RAG：80-85%（因为图像理解准确率低）

什么时候值得用多模态 RAG？

✅ 文档包含大量图表（比如财务报告、技术文档）
✅ 用户问题涉及图表（比如"这个图表的趋势是什么"）
✅ 成本不敏感（多模态 RAG 成本 3x）
❌ 文档主要是文本（多模态 RAG 没有收益）
❌ 成本敏感（多模态 RAG 成本太高）

工程结论： 多模态 RAG 适合"文档包含大量图表"的场景，但成本 3x，准确率反而下降。

判断依据：什么时候多模态是值得的？

多模态成立的场景（至少满足两个条件）

✅ 刚需场景（没有替代方案）

用户必须上传图片（比如"识别这个物体"）
用户必须上传视频（比如"总结这个会议"）
没有其他方式获取这些信息

✅ 成本不敏感场景

低频调用（每天 < 1000 次）
高价值任务（错误成本高）
用户愿意为"更好的体验"付费

✅ 用户体验显著提升

图像输入比文本描述快 10 倍
视频摘要比人工看视频快 100 倍
用户满意度显著提升

多模态不成立的场景（至少满足两个条件）

❌ 有更便宜的替代方案

简单 OCR → 用传统 OCR（成本 1/10，准确率更高）
图表分析 → 用数据源（准确率 99%+）
视频分析 → 用图像分类（成本 1/50）

❌ 高频、成本敏感场景

每天百万级调用
成本是主要考虑因素
利润率低

❌ 准确率要求极高

金融、医疗、法律等场景
多模态准确率（60-80%）不满足要求
错误成本高

工程结论：多模态是工具，不是必需品

明确的决策建议

默认用纯文本：在多数场景下，纯文本的工程性价比更高
- 为什么？成本 1x，准确率 85-95%，延迟 1-3s
- 什么时候例外？用户必须上传图片 / 视频
图像用于"刚需场景"：如果必须用图像，一定要评估成本
- 为什么？图像成本 10x-20x，准确率 60-80%
- 什么时候不用？有专门模型或替代方案
视频用于"低频、高价值"：如果必须用视频，一定要限制调用频率
- 为什么？视频成本 100x-500x，准确率 40-60%
- 什么时候不用？高频调用、成本敏感
混合策略最安全：不确定时，用轻量级折中方案
- 为什么？结合多种方案的优势，成本 1x-10x，准确率 85-95%
- 什么时候不用？系统复杂度已经很高

反模式警告

⚠️ 不要盲目追求"全模态"

成本爆炸：多模态成本是纯文本的 10x-500x
准确率下降：多模态准确率（40-80%）远低于纯文本（85-95%）
调试地狱：图像 / 视频调试难度指数级上升
如果违反这个警告，你的系统会变得"又贵又慢又不准"

⚠️ 不要忽视"替代方案"

简单 OCR：传统 OCR 比 VLM 便宜 10 倍、准确率更高
图表分析：直接用数据源比 VLM 准确率更高
视频分析：抽帧 + 图像分类比视频理解便宜 50 倍
如果违反这个警告，你会发现"多模态不是最优方案"

⚠️ 不要低估"调试成本"

文本调试：看 log，找错误（1 小时）
图像调试：猜 + 试（10 小时）
视频调试：极难调试（100 小时）
如果违反这个警告，你会陷入"无法调试"的困境

最后一句话

多模态不是"能力升级"，而是"在特定场景下的刚需工具"。在多数场景下，优化纯文本理解 + 精准选择多模态的工程性价比，远高于盲目上多模态 + 祈祷准确率够用。

📚 下一篇预告

《推理成本是如何被"一点点榨干"的：从量化到投机解码》

我们会讨论：

为什么成本优化不是"最后才做"，而是"从第一天就要考虑"
MoE / Quantization / Distillation / Speculative Decoding 的成本-收益分析
为什么很多优化只适合"大规模服务"

如果你在纠结"要不要做成本优化"，下一篇会给你明确答案。

📚 系列完整规划

篇号	标题
01	推理能力（CoT vs 强推理）
02	长上下文（长上下文 vs RAG）
03	多模态（文本 vs 图像 vs 视频） ← 你在这里
04	成本优化（量化、MoE、蒸馏）
05	对齐与可控（训练对齐 vs 运行时控制）
06-09	RAG 系列（能查 → 查得准 → 自救 → GraphRAG）
10-11	工具与 MCP（Function Calling、MCP）
12-13	Agent 系统（单 Agent → 多 Agent）
14	LLMOps（从 Demo 到生产）