🚀 从大脑到实体:LLM 与 AI Agent

一、 基础概念:LLM(大语言模型)

LLM 是语言模型从量变到质变的产物。如果把普通语言模型比作“复读机”,那么大语言模型就是“思想家”。

核心维度的跨越

维度 普通语言模型 (LM) 大语言模型 (LLM)
规模 (Scale) 百万至亿级参数;特定领域数据(如医疗)。 百亿至万亿级参数;全网数据(图书、代码、百科)。
能力 (Capability) 专才:仅限填空、语法纠错、分类。 全才:具备涌现能力,能逻辑推理、写代码。
交互方式 判别式:输出概率、分数。 生成式:输出逻辑自洽的对话与内容。
训练范式 微调驱动:针对每个任务喂特定数据。 预训练+指令微调:理解人类意图,实现零样本学习。

💡 深入理解“对话”:
模型本质上是“概率预测机器”,它并不真的“记得”你。每次对话的实质是:
Prompttotal=System_Setting+Context+User_InputPrompt_{total} = System\_Setting + Context + User\_InputPrompttotal=System_Setting+Context+User_Input
模型接收这串长文本,预测出逻辑最通顺的“续写”。


二、 智能体 (AI Agent):赋予大脑“手脚”

智能体 是当前 AI 的进阶形态。如果 LLM 是一个“博学但瘫痪”的大脑,Agent 就是给大脑装上了感官、肢体和笔记本。

核心架构:四根支柱

根据 OpenAI 研究员 Lilian Weng 的定义:

Agent=LLM+Planning+Memory+Tool Use\text{Agent} = \text{LLM} + \text{Planning} + \text{Memory} + \text{Tool Use}Agent=LLM+Planning+Memory+Tool Use

  1. 大脑 (LLM):核心调度器,负责决策与推理。
  2. 规划 (Planning)
  • 任务拆解:将“办场婚礼”拆解为选址、订餐、发请柬。
  • 自我反思:执行后检查结果,若报错则自动修正路径。
  1. 记忆 (Memory)
  • 短期记忆:当前对话的上下文(Context Window)。
  • 长期记忆:利用向量数据库存储历史经验,像人类的“长时记忆”一样随时检索。
  1. 工具使用 (Action)
  • 通过 API 调用 联网、运行代码、控制硬件,真正干涉现实世界。

关键技术术语

  • Function Calling:大脑与手脚沟通的“暗号”(通常是 JSON 格式)。
  • MCP (模型上下文协议):智能体连接外部工具的“万能插座”标准。
  • Subagent (子智能体):分工协作,防止主大脑因处理琐碎信息而“脑载过重”。

三、 深度对比:知晓 vs. 做到

特性 大模型 (LLM) 智能体 (Agent)
本质属性 函数/组件(输入 →\rightarrow 输出) 系统/实体(感知 →\rightarrow 决策 →\rightarrow 行动)
交互逻辑 线性交互:一问一答,随即结束。 闭环迭代:思考-行动-观察-修正,直至完成目标。
执行深度 “纸上谈兵”:告诉你订票的流程。 “落地执行”:直接帮你把票订好并扣款。
类比 赛车引擎:动力澎湃但原地空转。 自动驾驶赛车:有动力、有导航、会自动打方向盘。

🌟 总结:我们正处于时代的转折点

  • LLM 时代:我们在研究 Prompt Engineering(如何更好地命令大脑)。
  • Agent 时代:我们在研究 Workflow Engineering(如何构建一套让大脑自主工作的系统)。

未来,你不是在调优一个对话框,而是在管理一支由多个 Agent 组成的数字团队。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐