你好,我是司沐

上一篇我们聊到,大模型(LLM)的本质只是一个“超级输入法”,它唯一会做的事就是预测下一个字,生成文本。

这时候,很多敏锐的同学就会问我:

“司沐老师,如果它只能生成文字,那它是怎么帮我联网搜索的?它是怎么帮我读文件夹里的代码的?它是怎么帮我操作 Excel 表格的?”

这就触及到了当下 AI 领域最火热的概念——Agent(智能体)

在很多人的想象中,Agent 是大模型进化出的新功能,或者是大模型内部的一个高级模块。

大错特错。

作为经常与 Agent 系统打交道的人,我经常用一个形象的比喻来解释它们的关系:大模型是那个只会动嘴的“大脑”,而 Agent 框架,就是专门请来“伺候”这个大脑的一群人。

在这里插入图片描述


01 关系倒置:不是 Agent 在模型里,是模型在 Agent 里

很多初学者容易搞混包含关系。

其实,Agent 是一个工程架构,它把大模型“包裹”在里面。

如果把 Agent 比作钢铁侠的战甲:

  • 大模型(LLM) 就是里面的贾维斯(AI核心),它负责思考、决策、生成语言。
  • Agent 架构 就是战甲的机械臂、推进器和通讯模块,它们负责感知世界、执行动作。

没有战甲,贾维斯只是一串代码;没有贾维斯,战甲就是一堆废铁。
在这里插入图片描述


02 那个“伺候”模型的人:它是如何联网的?

让我们回到最本质的问题:模型只能生成字,它没手没脚,怎么联网?

我在对谈中给那位同学举了个例子:

假设你问 ChatGPT:“小米 SU7 今年12月的销量是多少?”

大模型看了一眼自己的参数(哪怕是 GPT-4,数据也是有截止日期的),它发现自己不知道,因为它没看过最新的新闻。

如果是以前的模型,它可能会开始瞎编(幻觉)。但现在的 Agent 架构是这样工作的:

  1. 约法三章:
    我们在后台偷偷告诉模型:“如果你不知道答案,不要瞎编。你可以输出一个特殊的暗号,比如 {"tool": "search", "query": "小米SU7 12月销量"}。”
  2. 大脑下令:
    模型发现自己能够通过写JSON来调用工具,于是听话地输出了那串 JSON 格式的暗号
    注意:此时模型只是生成了这串字就结束了,并没有回复用户。
  3. 管家干活:
    这时候,Agent 框架中的代码(那个伺候它的人) 登场了!
    框架监测到了这串暗号,立刻拦截下来(不展示给用户看),再用其中的关键字去调用 百度 或 Bing 的 API,真真切切地去互联网上搜了一圈。
  4. 信息回填:
    框架把搜到的新闻结果,打包成一段新文本,偷偷塞回给模型:“喂,大脑,这是我刚搜到的信息,你看看。”
  5. 生成回复(Final Response):
    模型一看:“嚯,有资料了!”于是它结合用户的问题和脚本给的资料,生成了最终的回答:“根据最新搜索结果,销量是……”

看明白了吗?大模型从未真正“联网”,它只是在指挥外部的脚本帮它跑腿。Agent 就是这套“指挥-跑腿-反馈”的完整机制。
在这里插入图片描述


03 什么是真正的“AI Native”开发?

现在业内都在喊 AI Native(AI 原生) 应用,但很多人对它的理解还停留在表面。
我觉得讲 AI Native,不能只讲 Agentic(智能体),那只是其中的一个方面。真正的 AI Native 应该包含三个层次的进阶。

第一层:传统思维 + AI(把AI当成一个工具函数)

这是目前大多数“AI 应用”所处的阶段。
传统软开人员把 AI 当作一个“超级函数”用,让 AI 代替先前的几个函数或几个小模型,在僵化的框架里跑。

比如在写报销流程时,以前我们需要写正则表达式提取金额,现在调用一个大模型接口让它提取。
或者在剪辑软件里,增加一个“一键移除背景”的功能。

特点

  • AI 只是作为工具被调用。
  • 流程依然是僵化的,代码框架没有变。
  • 本质:这是“人去适应工具”,效率虽然有提升,但核心流程依然是旧的。
第二层:Agentic 自主化(AI动态规划流程)

这就是很多文章里强调的“AI Native”,也是目前比较热门的方向。
我们不再写死逻辑,而是给 AI 提供一堆工具(函数):

  • read_file()(读文件)
  • send_email()(发邮件)
  • generate_report()(写报告)

然后把任务扔给 AI:“帮我把这个文件夹里的代码总结一下,发给老板。”
接下来,第一步干什么,第二步干什么,全部由 AI 自己规划。

特点

  • AI 拥有了决策权,可以编排任务。
  • DevinCursor 等工具就是典型的例子,它们像一个拥有权限的 Agent 在工作。

传统软件开发,我们是在教计算机“怎么做”(How):

“先检测鼠标点击,然后获取输入框 A 的值,判断是否为空,然后连接数据库…”

AI Native 开发,我们是在告诉计算机“要做什么”(What):

“这是原始材料,我要这个结果,中间你自己看着办。”

在这里插入图片描述

第三层:AI Native 思路重构(摒弃“软开思维”,回归“需求本源”)

这是最关键,也是最容易被忽视的一层。
击穿原先被技术所限制而妥协出的传统思维,用我们对传统需求开发方式了解甚少的“新脑子”,构思出以 AI 能力为核心的新式流程。

让我们看两个具体的例子来感受这种“奇妙的简化”:

案例一:视频/Vlog 剪辑(内容创作)

  • 核心痛点:从几小时的素材里提取精华。
  • 传统软开阶段思路(Tool-based):提供时间轴、剪刀工具。用户必须从头到尾看素材,手动标记、拼接。门槛极高。
  • 传统思路 + AI(AI Assisted):增加“一键移除背景”、“智能降噪”。效率提升了,但核心流程依然是用户在拖动时间轴。
  • AI Native 思路(Semantic Editing)
    • 做法:没有时间轴(或隐藏)。用户直接扔进去 20 个片段:“帮我剪一个 30 秒的视频,配个燃的 BGM,只要大家笑的镜头和风景特写。”
    • 体验:AI 直接“看懂”了视频内容(多模态)。它知道哪一帧是“笑”,哪一帧是“风景”,它理解“燃”对应什么样的 BGM 节奏点。
    • 简化的复杂度:原本需要程序员写复杂的图像识别算法、音频波形分析算法,现在变成了“自然语言描述”。

案例二:填写报销单(学生会/行政流程)

  • 核心痛点:结构化数据的录入极其繁琐。
  • 传统软开阶段思路(Form-Driven):复杂的表单页面,后端一堆校验逻辑。用户痛苦地把发票上的字敲进格子里。
  • 传统思路 + AI(OCR Plugin):加个“拍照识别”,调用 OCR 填入。识别错了还得手动改。
  • AI Native 思路(Unstructured to Structured)
    • 做法:界面可能只有一个“上传/对话”框。用户直接把发票照片和语音扔进去:“这是买比赛物料的钱,一共 500 多,帮我报了。”
    • 体验:AI 直接读取图片内容,理解语音意图,在后台自动构建出符合财务要求的 JSON 结构化数据。如果发现金额对不上,AI 会反问确认。
    • 简化的复杂度:前端砍掉了 90% 的表单 UI 开发量,后端砍掉了大量的数据校验和清洗代码。流程从“人肉结构化数据”变成了“AI 自动化清洗数据”。

总结

什么是“奇妙的简化”?
就是当原本复杂的流程遇到大模型时,因为 AI 具备了理解和推理能力,我们可以跳过中间繁琐的步骤,直接连接意图结果

要想实现 AI Native,我们必须摒弃掉传统软开思维的局限。
不要只是想着怎么在旧框架里塞进 AI,而是要思考:如果有了一个像人一样聪明的大脑,这个需求还需要以前那些复杂的流程吗?
以一种完全全新的,打破常规的,高效的新式流程完全重写旧有范式,这才是 AI Native 的未来。

在这里插入图片描述


04 架构师的忠告:Agent 的未来

理解了 Agent,你就理解了大模型下半场的全部。

现在的模型能力已经很强了,卷模型参数是巨头的游戏。对于普通开发者、研究生和创业者来说,机会全在 Agent 层。

  • 怎么设计那套“约法三章”,让模型更听话?(提示词工程)
  • 怎么给模型配备更好用的“工具”?(工具设计)
  • 怎么让模型拥有长期的“记忆”?(RAG / 向量数据库)
  • 怎么编排Agent流程,既省钱还效果好?(Agent工程 / 上下文工程)

这些才是我们能弯道超车的地方。

与其盯着聊天框了,不如一起来思考如何给这个“最强大脑”装上“最灵活的手脚”。


司沐老师的总结

大模型是引擎,Agent 是整车。

没有 Agent 架构,大模型只是一个在服务器里自言自语的博士。
有了 Agent 架构,它才能变成帮你写代码、查资料、订机票的全能管家

聊到这里,我相信你对职业选择(第一篇)、模型原理(第二篇)和应用架构(第三篇)都有了清晰的认知。

那么,作为一名想入局的同学,到底该从哪里开始学? 是不是要先去啃两本高数书?还是直接看代码?

千万别走弯路! 下一篇,我将为你规划一条非科班友好的高效学习路线


下期预告:
别只知道啃吴恩达老师的课了!大模型时代的“野路子”学习法。
下一篇,司沐老师手把手教你如何用 2 个月时间,从小白进阶到能读懂顶会论文。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐