最近看到 吴恩达 发布了一门新课
👉 Document AI: From OCR to Agentic Doc Extraction

在LLM for everything时代,我们团队也需要一个文档解析sota实现,所以第一反应是:

这不正好对口吗?

于是兴致勃勃点进去,看完之后的真实感受却是:

😓 课程本身更像是一套围绕某个产品的“方法论式推广”,而不是一门中立、系统的 Document AI 技术课。

但——
这门课里确实抛出了一个值得认真对待的新概念

Agentic Document Extraction

本文就顺着这个概念,把**“去掉产品包装之后,它真正有价值的思想”**拆解出来。

一 “Agentic Document Extraction”到底是什么?

去掉课程和产品包装之后,这个概念本身确实值得认真对待

一句话理解

Agentic Document Extraction 并不是一个模型,而是一种系统设计范式。

它的核心变化不在“识别能力”,而在于:

谁来控制文档解析流程


二 传统文档解析 vs Agentic 思路

传统 OCR / OCR + LLM

Document
 → OCR
 → Text
 → LLM
 → JSON

特点:

  • 流程是 静态的
  • 错了只能重跑
  • 很难解释“为什么这么抽”

Agentic Document Extraction

Agent
 ├─ 判断文档类型
 ├─ 选择解析策略
 ├─ 多轮调用 OCR / Layout / Table
 ├─ 验证字段是否有证据
 └─ 输出结构化结果 + 证据

这里的关键不是“Agent”这个词有多 fancy,而是:

LLM 从“被动处理文本”,变成了“主动控制解析流程”


三 Agentic 的三个关键思想(这是精华)

1️⃣ 解析流程是“可决策的”,不是写死的

Agent 可以做的事情包括:

  • 这是发票?合同?简历?
  • 是表格优先,还是段落优先?
  • 字段缺失,是否重新定位区域?

这一步解决的是 复杂、多模板文档的泛化问题


2️⃣ 输出的不只是字段,而是「字段 + 证据」

一个 Agentic 输出更像这样:

{
  "total_amount": {
    "value": "1234.56",
    "evidence": {
      "page": 1,
      "bbox": [120, 560, 260, 600],
      "text": "Total Amount 1234.56"
    }
  }
}

这一步非常重要,因为它直接解决了:

  • LLM 幻觉
  • 审计 / 合规
  • 人工复核成本

3️⃣ 文档理解不再是一次调用,而是一个过程

传统 pipeline 假设:

“一次 OCR + 一次 LLM 就够了”

Agentic 假设:

“复杂文档需要多轮尝试、验证、修正”

这是工程哲学上的转变


四 但是。。。冷静一点:Agentic 不是银弹

这也是课程里几乎不讲,但工程上必须面对的现实。

Agentic 的真实代价

  • 延迟更高
  • Token 成本更高
  • Debug 更复杂
  • 系统复杂度明显上升

所以结论是:

80% 的文档解析场景,其实不需要 Agentic。


五、那这个概念真正的价值在哪里?

我认为不在于“现在立刻全量用”,而在于:

✅ 它给了我们一个高端能力的目标形态

你可以不买这辆车,但知道:

  • 未来优秀的 Document AI 应该:
    • 可解释
    • 有证据
    • 能处理复杂版式
    • 能自适应策略

七、我的工程判断(非常重要)

什么时候 Agentic 是“值得的”?

  • 合同 / 法律文档
  • 财务报表
  • 高价值、低容错业务
  • 需要可审计、可解释

什么时候不值得?

  • 模板固定
  • 字段很少
  • QPS 极高
  • 成本极敏感

八、回到这门课本身

如果一句话总结这门课:

它不是一门教你“怎么实现 Document AI”的课,而是一门教你“Document AI 产品应该长什么样”的课。

站在工程师角度,它确实产品味很重
但站在趋势判断角度,它提出的 Agentic Document Extraction,是一个值得我们消化、拆解、去产品化理解的重要概念


结语

你完全可以不认同这门课的产品导向
但没必要忽略它抛出的那个核心问题:

当文档越来越复杂,仅靠 OCR + 一次 LLM 调用,真的够吗?

Agentic Document Extraction 给出的不是唯一答案,
但它指向了一个清晰方向。

我们真正该做的,是:

理解这个方向,然后用自己可控的方式去逼近它。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐