[特殊字符] 从大脑到实体:LLM 与 AI Agent
LLM 时代:我们在研究(如何更好地命令大脑)。Agent 时代:我们在研究(如何构建一套让大脑自主工作的系统)。未来,你不是在调优一个对话框,而是在管理一支由多个 Agent 组成的数字团队。
·
🚀 从大脑到实体:LLM 与 AI Agent
一、 基础概念:LLM(大语言模型)
LLM 是语言模型从量变到质变的产物。如果把普通语言模型比作“复读机”,那么大语言模型就是“思想家”。
核心维度的跨越
| 维度 | 普通语言模型 (LM) | 大语言模型 (LLM) |
|---|---|---|
| 规模 (Scale) | 百万至亿级参数;特定领域数据(如医疗)。 | 百亿至万亿级参数;全网数据(图书、代码、百科)。 |
| 能力 (Capability) | 专才:仅限填空、语法纠错、分类。 | 全才:具备涌现能力,能逻辑推理、写代码。 |
| 交互方式 | 判别式:输出概率、分数。 | 生成式:输出逻辑自洽的对话与内容。 |
| 训练范式 | 微调驱动:针对每个任务喂特定数据。 | 预训练+指令微调:理解人类意图,实现零样本学习。 |
💡 深入理解“对话”:
模型本质上是“概率预测机器”,它并不真的“记得”你。每次对话的实质是:
Prompttotal=System_Setting+Context+User_InputPrompt_{total} = System\_Setting + Context + User\_InputPrompttotal=System_Setting+Context+User_Input
模型接收这串长文本,预测出逻辑最通顺的“续写”。
二、 智能体 (AI Agent):赋予大脑“手脚”
智能体 是当前 AI 的进阶形态。如果 LLM 是一个“博学但瘫痪”的大脑,Agent 就是给大脑装上了感官、肢体和笔记本。
核心架构:四根支柱
根据 OpenAI 研究员 Lilian Weng 的定义:
Agent=LLM+Planning+Memory+Tool Use\text{Agent} = \text{LLM} + \text{Planning} + \text{Memory} + \text{Tool Use}Agent=LLM+Planning+Memory+Tool Use
- 大脑 (LLM):核心调度器,负责决策与推理。
- 规划 (Planning):
- 任务拆解:将“办场婚礼”拆解为选址、订餐、发请柬。
- 自我反思:执行后检查结果,若报错则自动修正路径。
- 记忆 (Memory):
- 短期记忆:当前对话的上下文(Context Window)。
- 长期记忆:利用向量数据库存储历史经验,像人类的“长时记忆”一样随时检索。
- 工具使用 (Action):
- 通过 API 调用 联网、运行代码、控制硬件,真正干涉现实世界。
关键技术术语
- Function Calling:大脑与手脚沟通的“暗号”(通常是 JSON 格式)。
- MCP (模型上下文协议):智能体连接外部工具的“万能插座”标准。
- Subagent (子智能体):分工协作,防止主大脑因处理琐碎信息而“脑载过重”。
三、 深度对比:知晓 vs. 做到
| 特性 | 大模型 (LLM) | 智能体 (Agent) |
|---|---|---|
| 本质属性 | 函数/组件(输入 →\rightarrow→ 输出) | 系统/实体(感知 →\rightarrow→ 决策 →\rightarrow→ 行动) |
| 交互逻辑 | 线性交互:一问一答,随即结束。 | 闭环迭代:思考-行动-观察-修正,直至完成目标。 |
| 执行深度 | “纸上谈兵”:告诉你订票的流程。 | “落地执行”:直接帮你把票订好并扣款。 |
| 类比 | 赛车引擎:动力澎湃但原地空转。 | 自动驾驶赛车:有动力、有导航、会自动打方向盘。 |
🌟 总结:我们正处于时代的转折点
- LLM 时代:我们在研究 Prompt Engineering(如何更好地命令大脑)。
- Agent 时代:我们在研究 Workflow Engineering(如何构建一套让大脑自主工作的系统)。
未来,你不是在调优一个对话框,而是在管理一支由多个 Agent 组成的数字团队。
更多推荐



所有评论(0)