LLM 工程决策系列(03/14)

这是「LLM 工程决策系列」的第 3 篇,共 14 篇。
我们不讲技术原理,只讲什么时候值得用,什么时候不值得用

📚 系列导航
状态 篇号 标题
✅ 已发布 01 从 CoT 到 o1-style:大模型"强推理"能力到底升级了什么?
✅ 已发布 02 长上下文不是银弹:模型"能装下"和"能理解"的差别
✅ 已发布 03 多模态能力在工程上到底什么时候才"值得上"? ← 你在这里
📅 即将 04 推理成本是如何被"一点点榨干"的:从量化到投机解码
📅 即将 05 模型对齐不是一句"安全",而是三层工程问题
📅 即将 06-09 RAG 系列(能查 → 查得准 → 自救 → GraphRAG)
📅 即将 10-11 工具与 MCP(Function Calling、MCP)
📅 即将 12-13 Agent 系统(单 Agent → 多 Agent)
📅 即将 14 LLMOps(从 Demo 到生产)

工程问题:多模态不是炫技,而是复杂度指数级上升

你的系统成本爆炸的那一刻,通常是这样的:

  • 周一:用纯文本做 MVP,成本 $0.01 / 次,用户很满意
  • 周二:CEO 说"能不能支持上传图片",你加了图像理解
  • 周三:成本变成 $0.15 / 次(15x),但准确率反而下降了
    • 为什么?因为图像理解准确率(60-80%)远低于文本理解(85-95%)
    • 结果:用户投诉"识别错了"
  • 周四:用户又说"能不能支持视频",你开始考虑视频理解
  • 周五:你算了一下成本,一个 10 分钟视频 = $0.375,一天 1000 个视频 = $375,一个月 = $11,250
    • 你开始后悔,“为什么不在第一天就评估成本呢”

这不是"能不能做"的问题,而是"为什么你没有从第一天就选对工具"。

在实际工程中,你会发现:

  • 成本爆炸:一张图片 = 1000-2000 tokens,一个视频 = 100K+ tokens
  • 准确率下降:图像理解(60-80%)远低于文本理解(85-95%)
  • 调试地狱:文本错了可以看 log,图像错了怎么调试?

关键是:多模态不是"加个功能",而是"输入复杂度指数级上升"。

  • 文本输入:1 维(序列)
  • 图像输入:2 维(像素矩阵)
  • 视频输入:3 维(时间 × 像素矩阵)

每增加一个维度,工程复杂度不是 2x,而是 10x。


快速判断:你该用多模态还是纯文本?

你的情况 推荐方案 成本 准确率 延迟 适用人群
简单 OCR(发票、身份证) 传统 OCR 1x 95%+ 1-2s 成本敏感
复杂 OCR(截图、手写) VLM 10x 80-90% 3-10s 准确率可接受
图表分析(精准数值) 数据源 + 文本 1x 99%+ 1s 金融、数据分析
图表探索(趋势理解) VLM 10x 70-80% 3-10s 用户探索
视频摘要(低频) 视频理解 100x 60-70% 30s-5min 会议、讲座
视频分析(高频) 图像分类 10x 80-90% 5-10s 监控、审核

找到你的情况了吗?下面我们逐项展开。


技术选项对比:文本 vs 图像 vs 视频的工程代价

纯文本 图像(VLM) 视频
成本 1x 10x-20x 100x-500x
准确率 85-95% 60-80% 40-60%
延迟 1-3s 3-10s 30s-5min
调试难度 低(可读 log) 中(需要看图) 高(需要看视频)
适用场景 通用 图表分析、OCR、UI 理解 视频摘要、监控分析
失败模式 幻觉(可检测) 误识别(难检测) 时序混乱(极难检测)

这不是性能对比,而是工程代价对比。下面我们逐项展开。


图像理解(VLM)的演进:从纯文本到多模态

第一阶段:纯文本 - 基准

什么是纯文本?

  • 用户只能通过"文字描述"来表达需求
  • 模型只能通过"文字"来理解和回答

工程特点:

  • 成本:基准 1x
  • 准确率:85-95%(高)
  • 延迟:1-3s(稳定)
  • 调试难度:低(可读 log)

什么时候值得用?

  • ✅ 用户能清楚描述问题(比如"这个代码有 bug 吗")
  • ✅ 问题不涉及"视觉信息"(比如文本分类、代码审查)
  • ✅ 成本敏感(每天百万级调用)

纯文本的局限性:

  • 如果用户问"这个图表的趋势是什么",需要用户先"描述图表"
  • 描述过程容易出错(“我看到一条上升的线”,但实际是下降的)
  • 结果:模型基于错误的描述,给出错误的答案

什么时候纯文本不够?

  • 用户需要上传图片(比如"识别这张发票")
  • 用户需要上传截图(比如"这个 UI 有什么问题")
  • 用户需要上传图表(比如"分析这个数据")

第二阶段:图像理解(VLM)- 为什么需要?

为什么需要图像理解?

当你遇到这些问题时,纯文本就不够了:

  • 用户上传图片,问"这是什么"
  • 用户上传截图,问"这个按钮在哪里"
  • 用户上传图表,问"趋势是什么"

图像理解的承诺:

  • “我可以直接看图片,不需要用户描述”
  • “我可以识别图片中的文字、物体、关系”
  • “我可以理解图表、UI、设计”

但代价是什么?


第二阶段的成本分析:为什么是 10x-20x?

一张图片 = 1000-2000 tokens

VLM(Vision-Language Model)的工作原理是:

  1. 把图像切成 N × N 的小块(比如 16×16 像素一块)
  2. 每个小块转成一个 token
  3. 用 Transformer 处理这些 token

成本计算:

  • 一张 1024×1024 的图片
  • 切成 16×16 像素一块 = 64×64 = 4096 个块
  • 每个块 = 1 个 token
  • 总成本:4096 tokens ≈ 2000 tokens(经过压缩)

对比文本:

  • 2000 tokens 的文本 ≈ 1500 个英文单词 ≈ 3-4 页 A4 纸
  • 一张图片的成本 = 3-4 页文字的成本

实际成本对比:

假设你的系统每次调用生成 500 tokens:

方案 A:纯文本

  • 输入:500 tokens × $0.03/1M = $0.000015
  • 输出:500 tokens × $0.06/1M = $0.00003
  • 总成本:$0.000045 / 次

方案 B:图像 + 文本

  • 输入:2000 tokens(图像)+ 100 tokens(问题)= 2100 tokens × $0.03/1M = $0.000063
  • 输出:500 tokens × $0.06/1M = $0.00003
  • 总成本:$0.000093 / 次

成本放大:$0.000093 / $0.000045 ≈ 2x

但实际上,云服务商对图像有单独定价:

  • GPT-4V:$0.01 / 图片(1024×1024)
  • Claude 3:$0.008 / 图片(1024×1024)

实际成本对比:

  • 纯文本:$0.000045 / 次
  • 图像 + 文本:$0.01 / 次
  • 成本放大:200x

如果你的系统每天调用 10 万次:

  • 纯文本:$4.5 / 天
  • 图像 + 文本:$1,000 / 天
  • 成本差异:$995.5 / 天

工程结论: 图像不是"免费的输入",而是"昂贵的输入"。


第二阶段的准确率分析:为什么是 60-80%?

VLM 的准确率问题:

  1. OCR 准确率:80-90%

    • 印刷体:90%+
    • 手写体:70-80%
    • 复杂背景:60-70%
  2. 图表理解准确率:60-80%

    • 简单柱状图:80%+
    • 复杂折线图:70%
    • 多维度图表:60%
  3. UI 理解准确率:50-70%

    • 简单界面:70%
    • 复杂界面:50-60%
    • 动态界面:40-50%

对比纯文本理解:

  • 纯文本理解准确率:85-95%
  • 图像理解准确率:60-80%
  • 准确率差距:15-25 个百分点

为什么准确率这么低?

  • 图像信息密度高:一张图可能包含几十个元素
  • 空间关系复杂:元素之间的位置关系难以理解
  • 上下文缺失:图像本身没有"上下文",需要额外的文本说明

工程结论: VLM 不是"万能的图像理解",而是"通用但不精准的图像理解"。


第三阶段:图像理解 + 优化技术 - 如何提高准确率?

如果你必须用图像理解,怎么提高准确率?

有两种优化技术可以帮助你:

优化 1:用专门的模型替代 VLM

为什么需要专门模型?

  • VLM 是"通用"的,但"不精准"
  • 专门模型是"专用"的,但"精准"

典型场景:

OCR 场景:

  • VLM 准确率:80-90%
  • 专门 OCR 模型(Tesseract / PaddleOCR):95%+
  • 成本:$0.001 / 张(是 VLM 的 1/10)

图表分析场景:

  • VLM 准确率:70%(容易误读数值)
  • 直接用数据源(CSV / JSON):99%+
  • 成本:$0(直接读文件)

UI 定位场景:

  • VLM 准确率:70%(容易定位错误)
  • 传统 UI 测试框架(Selenium / Playwright):95%+
  • 成本:$0(开源工具)

工程代价:

  • 准确率:提升 10-20 个百分点
  • 成本:降低 10x-100x
  • 适用性:只对"特定场景"有效

什么时候值得用专门模型?

  • ✅ 有现成的专门模型(OCR、图表识别)
  • ✅ 准确率要求高(金融、医疗)
  • ✅ 成本敏感(高频调用)

成本对比:

  • VLM:$0.01 / 图片
  • 专门 OCR:$0.001 / 张
  • 成本降低:10x

优化 2:混合策略 - VLM + 后处理

什么是混合策略?

  • 不是"全用 VLM",也不是"全用专门模型"
  • 而是"VLM 初步理解 + 后处理验证"

混合策略的思路:

  1. 用 VLM 初步理解图像(成本 $0.01)
  2. 用规则 / 启发式方法验证结果(成本 $0)
  3. 如果不确定,再用专门模型(成本 $0.001)

工程代价:

  • 准确率:提升 5-10 个百分点
  • 成本:增加 5-10%(后处理成本)
  • 复杂度:中(需要设计验证规则)

什么时候值得用混合策略?

  • ✅ 有明确的"验证规则"(比如 OCR 结果的格式检查)
  • ✅ 准确率要求中等(80-90%)
  • ✅ 成本和准确率都很重要

一个典型的场景:

某发票识别系统用混合策略:

  1. VLM 识别发票金额:$0.01
  2. 后处理验证:检查金额格式、数值范围($0)
  3. 如果不确定,用专门 OCR:$0.001

成本:

  • 大多数情况:$0.01 / 张(VLM)
  • 不确定情况:$0.011 / 张(VLM + OCR)
  • 平均成本:$0.0105 / 张

对比:

  • 全用 VLM:$0.01 / 张,准确率 80%
  • 全用专门 OCR:$0.001 / 张,准确率 95%
  • 混合策略:$0.0105 / 张,准确率 90%
  • 混合策略在成本和准确率间找到平衡

第四阶段:轻量级折中方案 - 什么时候不用多模态?

什么是轻量级折中方案?

  • 不是"全用多模态",也不是"全用纯文本"
  • 而是"在成本和收益间找平衡"

轻量级折中方案的思路:

  1. 对于"必须用图像"的场景,用 VLM
  2. 对于"可以用文本替代"的场景,用纯文本
  3. 对于"有专门模型"的场景,用专门模型

工程代价:

  • 成本:1x-10x(取决于混合比例)
  • 准确率:85-95%(接近纯文本)
  • 复杂度:中(需要设计场景判断)

什么时候值得用轻量级折中方案?

  • ✅ 有"必须用图像"和"可以用文本"的混合场景
  • ✅ 成本和准确率都很重要
  • ✅ 用户体验不能妥协

一个典型的场景:

某客服系统用轻量级折中方案:

  • 用户上传图片 → 用 VLM 理解(成本 $0.01)
  • 用户描述问题 → 用纯文本理解(成本 $0)
  • 用户上传发票 → 用专门 OCR(成本 $0.001)

成本:

  • 纯文本问题:$0 / 次
  • 图像问题:$0.01 / 次
  • 发票问题:$0.001 / 次
  • 平均成本:$0.003 / 次(取决于混合比例)

对比:

  • 全用 VLM:$0.01 / 次
  • 全用纯文本:$0 / 次(但无法处理图像)
  • 轻量级折中:$0.003 / 次(最优)

一个典型的反面案例

某团队决定"全面支持多模态",把所有输入都改成"文本 + 图像"。

失败原因解剖:

  1. 成本爆炸

    • 原来每次调用 $0.000045(纯文本)
    • 现在每次调用 $0.01(图像)
    • 成本增加 200x
  2. 准确率下降

    • 原来准确率 90%(纯文本)
    • 现在准确率 75%(图像)
    • 准确率下降 15 个百分点
  3. 用户体验变差

    • 原来延迟 1-3s
    • 现在延迟 3-10s
    • 用户投诉"变慢了"
  4. 调试成本增加

    • 原来看 log 就能找到错误
    • 现在需要看图片、猜测模型理解了什么
    • 调试时间增加 10x

如果用轻量级折中方案替代:

  • 成本:$0.003 / 次(降低 3x)
  • 准确率:85%(提升 10 个百分点)
  • 延迟:1-5s(降低 1-2s)
  • 调试成本:降低 5x
  • 结论:轻量级折中在所有维度都更优

这个案例的教训:

  • ❌ 不要盲目追求"全模态"
  • ✅ 要思考"什么时候真的需要多模态"
  • ✅ 精准选择 + 混合策略,通常优于"全面多模态 + 祈祷准确率够用"

视频理解:成本与收益的极限挑战

视频理解的成本:一个视频 = 100K+ tokens

为什么视频这么贵?

视频 = 图像序列:

  • 1 分钟视频 = 30 帧/秒 × 60 秒 = 1800 帧
  • 每帧 = 2000 tokens
  • 总成本:1800 × 2000 = 3.6M tokens

实际优化:

  • 抽帧:每秒取 1 帧(而不是 30 帧)→ 60 帧
  • 降分辨率:512×512(而不是 1024×1024)→ 500 tokens/帧
  • 优化后成本:60 × 500 = 30K tokens

实际成本:

  • Gemini 1.5 Pro:$0.00125 / 1K tokens(输入)
  • 1 分钟视频(30K tokens):$0.0375
  • 10 分钟视频:$0.375
  • 1 小时视频:$2.25

如果你的系统每天处理 1000 个视频(每个 10 分钟):

  • 成本:$375 / 天 = $11,250 / 月

对比图像理解:

  • 一张图片:$0.01
  • 一个 10 分钟视频(60 帧):$0.375
  • 视频成本是图像的 37x

工程结论: 视频理解的成本是图像的 10x-50x。


视频理解的准确率:40-60%

视频理解的难点:

  1. 时序理解:需要理解"前后帧"的关系
  2. 长时依赖:需要记住"10 秒前发生了什么"
  3. 多模态融合:需要同时理解"画面 + 声音 + 字幕"

视频理解的准确率:

  • 简单场景(单人讲话):60-70%
  • 复杂场景(多人对话、快速切换):40-50%
  • 长视频(1 小时+):30-40%

对比图像理解:

  • 图像理解准确率:60-80%
  • 视频理解准确率:40-60%
  • 准确率差距:20 个百分点

工程结论: 视频理解的准确率远低于图像理解。


视频理解的典型场景

什么时候视频理解是值得的?

视频摘要(低频、高价值)

  • 典型场景:会议录像 → 自动生成摘要
  • 为什么视频理解成立:人工看完 1 小时视频需要 1 小时,视频理解只需要 1 分钟
  • 成本:$2.25 / 小时(可接受)
  • 准确率:60-70%(可接受,因为是"摘要"而不是"精准信息")

监控分析(安全刚需)

  • 典型场景:监控录像 → 自动识别异常行为
  • 为什么视频理解成立:人工看监控成本极高,视频理解可以 24/7 运行
  • 成本:虽然高,但比人工低
  • 准确率:60-70%(可接受,因为是"异常检测"而不是"精准分类")

高频视频分析

  • 典型场景:短视频平台的内容审核(每天百万级视频)
  • 为什么视频理解不成立:成本爆炸($375 / 1000 视频 × 1000 = $375,000 / 天)
  • 替代方案:图像分类模型(抽帧 + 分类)

工程结论: 视频理解适合"低频、高价值"场景,不适合"高频、成本敏感"场景。


第四阶段:语音理解(ASR)- 成本与准确率的权衡

为什么需要 ASR?

当你遇到这些问题时,就需要升级到第四阶段:

  • 用户需要上传音频(比如"转录这个会议录音")
  • 需要从语音中提取信息(比如"识别说话人")
  • 文本描述无法准确表达音频内容

ASR 的机制:

  • 把音频转成文本
  • 然后用文本理解模型处理
  • 结果:成本 = 音频处理成本 + 文本处理成本

ASR 的真实成本:

根据 2024-2025 年的研究:

  • OpenAI Whisper API:$0.006 / 分钟
  • Google Cloud Speech-to-Text:$0.004 / 分钟
  • Azure Speech Services:$0.001 / 分钟

实际成本对比:

  • 1 小时音频(60 分钟):$0.36-$0.36(OpenAI)
  • 对比视频理解(1 小时):$2.25
  • ASR 成本是视频理解的 1/6

ASR 的准确率:

  • 清晰音频(工作室录音):95%+
  • 普通音频(会议、讲座):90-95%
  • 嘈杂音频(街道、餐厅):70-85%

什么时候值得用 ASR?

  • ✅ 用户上传音频(比如语音备忘录)
  • ✅ 需要转录(比如会议记录)
  • ✅ 成本敏感(ASR 比视频理解便宜 6x)
  • ❌ 需要"说话人识别"(需要额外的模型)
  • ❌ 需要"情感分析"(需要额外的模型)

工程结论: ASR 是"成本最低的多模态",适合音频转录场景。


第五阶段:语音生成(TTS)- 输出多模态

为什么需要 TTS?

当你遇到这些问题时,就需要升级到第五阶段:

  • 用户需要"听"回答(比如"朗读这篇文章")
  • 需要生成语音内容(比如"生成播客")
  • 文本输出不够(需要多模态输出)

TTS 的机制:

  • 把文本转成语音
  • 可以控制语速、语调、说话人等
  • 结果:成本 = 文本处理成本 + 语音生成成本

TTS 的真实成本:

根据 2024-2025 年的研究:

  • OpenAI TTS:$0.015 / 1K 字符
  • Google Cloud Text-to-Speech:$0.004 / 1K 字符
  • Azure Text-to-Speech:$0.0005 / 1K 字符

实际成本对比:

  • 1000 字文章:$0.015(OpenAI)
  • 对比 ASR(1 小时音频):$0.36
  • TTS 成本是 ASR 的 1/24

TTS 的质量:

  • 自然度:80-90%(听起来像真人)
  • 多语言支持:50+ 语言
  • 说话人选择:10-100+ 种

什么时候值得用 TTS?

  • ✅ 需要"可访问性"(比如为视障用户朗读)
  • ✅ 需要"多模态输出"(比如生成播客)
  • ✅ 成本敏感(TTS 成本极低)
  • ❌ 需要"自然对话"(TTS 仍然听起来像机器)
  • ❌ 需要"情感表达"(TTS 无法表达复杂情感)

工程结论: TTS 是"成本最低的输出多模态",适合可访问性和播客生成。


第六阶段:任意模态转换(Any-to-Any)- 多模态的终极形态

为什么需要 Any-to-Any?

当你遇到这些问题时,就需要升级到第六阶段:

  • 用户需要"任意模态转换"(比如"把这个视频转成文章")
  • 需要"跨模态理解"(比如"这个图片和这个视频有什么关系")
  • 单一模态转换不够

Any-to-Any 的机制:

  • 把任意输入模态转成任意输出模态
  • 比如:视频 → 文章、图片 → 音频、音频 → 视频等
  • 结果:成本 = 输入处理 + 跨模态转换 + 输出生成

Any-to-Any 的真实成本:

根据 2024-2025 年的研究:

  • Gemini 1.5 Pro(支持任意模态):$0.00125 / 1K tokens(输入)
  • 视频 → 文章:$0.375(视频处理)+ $0.01(文本生成)= $0.385
  • 图片 → 音频:$0.01(图片处理)+ $0.015(音频生成)= $0.025

Any-to-Any 的准确率:

  • 视频 → 文章:60-70%(准确率取决于视频质量)
  • 图片 → 音频:70-80%(需要先理解图片)
  • 音频 → 视频:40-50%(最难的转换)

什么时候值得用 Any-to-Any?

  • ✅ 需要"跨模态理解"(比如"这个图片和这个视频有什么关系")
  • ✅ 需要"任意模态转换"(比如"把这个视频转成文章")
  • ✅ 用户体验很重要(比如"生成多模态内容")
  • ❌ 成本敏感(Any-to-Any 成本很高)
  • ❌ 准确率要求高(Any-to-Any 准确率不稳定)

工程结论: Any-to-Any 是"多模态的终极形态",但成本高、准确率不稳定,只适合"高价值、低频"场景。


第七阶段:多模态 RAG - 检索 + 多模态理解

为什么需要多模态 RAG?

当你遇到这些问题时,就需要升级到第七阶段:

  • 需要"从多模态文档中检索信息"(比如"从 PDF 中找出相关的图表")
  • 需要"多模态理解 + 检索"(比如"这个问题和哪些图片相关")
  • 单纯的文本 RAG 不够

多模态 RAG 的机制:

  1. 把文档拆成"文本块"和"图像块"
  2. 对文本块做向量化(文本 embedding)
  3. 对图像块做向量化(图像 embedding)
  4. 用户问题来了,同时检索文本和图像
  5. 把检索结果(文本 + 图像)一起送给模型

多模态 RAG 的真实成本:

根据 2024-2025 年的研究:

  • 文本 RAG:$0.05 / 次(检索 + 生成)
  • 多模态 RAG:$0.15 / 次(检索文本 + 检索图像 + 生成)
  • 成本增加:3x

多模态 RAG 的准确率:

  • 文本 RAG:85-90%
  • 多模态 RAG:80-85%(因为图像理解准确率低)

什么时候值得用多模态 RAG?

  • ✅ 文档包含大量图表(比如财务报告、技术文档)
  • ✅ 用户问题涉及图表(比如"这个图表的趋势是什么")
  • ✅ 成本不敏感(多模态 RAG 成本 3x)
  • ❌ 文档主要是文本(多模态 RAG 没有收益)
  • ❌ 成本敏感(多模态 RAG 成本太高)

工程结论: 多模态 RAG 适合"文档包含大量图表"的场景,但成本 3x,准确率反而下降。


判断依据:什么时候多模态是值得的?

多模态成立的场景(至少满足两个条件)

刚需场景(没有替代方案)

  • 用户必须上传图片(比如"识别这个物体")
  • 用户必须上传视频(比如"总结这个会议")
  • 没有其他方式获取这些信息

成本不敏感场景

  • 低频调用(每天 < 1000 次)
  • 高价值任务(错误成本高)
  • 用户愿意为"更好的体验"付费

用户体验显著提升

  • 图像输入比文本描述快 10 倍
  • 视频摘要比人工看视频快 100 倍
  • 用户满意度显著提升

多模态不成立的场景(至少满足两个条件)

有更便宜的替代方案

  • 简单 OCR → 用传统 OCR(成本 1/10,准确率更高)
  • 图表分析 → 用数据源(准确率 99%+)
  • 视频分析 → 用图像分类(成本 1/50)

高频、成本敏感场景

  • 每天百万级调用
  • 成本是主要考虑因素
  • 利润率低

准确率要求极高

  • 金融、医疗、法律等场景
  • 多模态准确率(60-80%)不满足要求
  • 错误成本高

工程结论:多模态是工具,不是必需品

明确的决策建议

  1. 默认用纯文本:在多数场景下,纯文本的工程性价比更高

    • 为什么?成本 1x,准确率 85-95%,延迟 1-3s
    • 什么时候例外?用户必须上传图片 / 视频
  2. 图像用于"刚需场景":如果必须用图像,一定要评估成本

    • 为什么?图像成本 10x-20x,准确率 60-80%
    • 什么时候不用?有专门模型或替代方案
  3. 视频用于"低频、高价值":如果必须用视频,一定要限制调用频率

    • 为什么?视频成本 100x-500x,准确率 40-60%
    • 什么时候不用?高频调用、成本敏感
  4. 混合策略最安全:不确定时,用轻量级折中方案

    • 为什么?结合多种方案的优势,成本 1x-10x,准确率 85-95%
    • 什么时候不用?系统复杂度已经很高

反模式警告

⚠️ 不要盲目追求"全模态"

  • 成本爆炸:多模态成本是纯文本的 10x-500x
  • 准确率下降:多模态准确率(40-80%)远低于纯文本(85-95%)
  • 调试地狱:图像 / 视频调试难度指数级上升
  • 如果违反这个警告,你的系统会变得"又贵又慢又不准"

⚠️ 不要忽视"替代方案"

  • 简单 OCR:传统 OCR 比 VLM 便宜 10 倍、准确率更高
  • 图表分析:直接用数据源比 VLM 准确率更高
  • 视频分析:抽帧 + 图像分类比视频理解便宜 50 倍
  • 如果违反这个警告,你会发现"多模态不是最优方案"

⚠️ 不要低估"调试成本"

  • 文本调试:看 log,找错误(1 小时)
  • 图像调试:猜 + 试(10 小时)
  • 视频调试:极难调试(100 小时)
  • 如果违反这个警告,你会陷入"无法调试"的困境

最后一句话

多模态不是"能力升级",而是"在特定场景下的刚需工具"。在多数场景下,优化纯文本理解 + 精准选择多模态的工程性价比,远高于盲目上多模态 + 祈祷准确率够用


📚 下一篇预告

《推理成本是如何被"一点点榨干"的:从量化到投机解码》

我们会讨论:

  • 为什么成本优化不是"最后才做",而是"从第一天就要考虑"
  • MoE / Quantization / Distillation / Speculative Decoding 的成本-收益分析
  • 为什么很多优化只适合"大规模服务"

如果你在纠结"要不要做成本优化",下一篇会给你明确答案。


📚 系列完整规划
篇号 标题
01 推理能力(CoT vs 强推理)
02 长上下文(长上下文 vs RAG)
03 多模态(文本 vs 图像 vs 视频) ← 你在这里
04 成本优化(量化、MoE、蒸馏)
05 对齐与可控(训练对齐 vs 运行时控制)
06-09 RAG 系列(能查 → 查得准 → 自救 → GraphRAG)
10-11 工具与 MCP(Function Calling、MCP)
12-13 Agent 系统(单 Agent → 多 Agent)
14 LLMOps(从 Demo 到生产)

关键词:VLM / 多模态 / OCR / ASR / TTS / Any-to-Any / Multimodal RAG / 成本优化 / 准确率 / 视频理解 / 混合策略

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐