【AI系列第1讲】从大脑到执行者:理解大模型 (LLM) 与智能体 (Agent) 的核心区别
介绍大模型和智能体的基本概念、发展历史和核心区别。结合案例:如ChatGPT作为大模型的应用,AutoGPT作为简单智能体的示例,帮助新手建立直观理解。
欢迎来到我们的AI科普专栏。
在过去一段时间,你很可能已经体验过ChatGPT。它在撰写文案、编写代码或分析文本方面的能力令人印象深刻,就像一个知识渊博的大脑。
但是,你是否也曾遇到过这样的局限: 为什么我让ChatGPT帮我预订一张明早去上海的机票,它只是建议我打开旅行APP,而不是直接帮我完成操作?为什么它不能像一个真正的助理一样,帮我执行任务?
如果你有这个疑问,那么你已经触碰到了AI发展的下一个重要方向——智能体 (Agent)。
今天,作为我们系列科普的第1讲,我们就来清晰地辨析这两个备受关注的概念:大模型 (LLM) 和 AI智能体 (Agent)。
这不仅是概念的区分,也关乎我们如何理解AI的未来。
一、 什么叫大模型?—— 知识渊博的大脑
首先,我们来谈谈大家相对熟悉的大模型 (Large Language Model, LLM)。
1. 它的本质:一个语言模型
你可以把LLM理解为一个经过海量文本数据(如书籍、网页、论文、代码)训练的大脑。
它的核心能力是:预测下一个词。
这个机制听起来简单,但当模型的参数量和数据量达到一定规模时,它的能力就发生了涌现。
-
你输入:“今天天气真...” 它预测:“...不错”。
-
你输入:“《三体》的作者是...” 它预测:“...刘慈欣”。
为了能持续准确地猜对,它必须深入学习语法、逻辑、常识、上下文关联,乃至一定的情感。久而久之,它便展现出了我们所说的智能。
2. 它的演进:从规则到学习
AI对语言的处理一直在发展,但真正的转折点发生在2017年。
- 前LLM时代:AI更依赖规则库,你问天气,它匹配关键词,给出相对固定的回答。
- 关键突破 (2017年):一篇名为《Attention Is All You Need》的论文发布,提出了Transformer架构(我们第2讲会详细拆解)。这为构建更大、更深的语言模型提供了高效的框架。
- 模型发展:基于Transformer,Google推出了BERT(擅长阅读理解),而OpenAI则开启了GPT(生成式预训练)系列。
- 关键时刻 (2022年底):ChatGPT发布。它通过对话的形式,将LLM强大的语言能力,以一种非常直观和流畅的方式呈现给了全球数亿普通用户。
3. 案例:ChatGPT
让我们看一个典型的LLM应用场景:
你(用户):帮我分析一下《流浪地球》和《星际穿越》在科幻立意上的异同。
ChatGPT (LLM):【开始检索知识库】...(搜索它记忆中的影评、情节、相关知识)...【开始生成文本】:“好的,这两部作品都探讨了人类的生存与探索,但立意上存在显著差异。1. 《流浪地球》展现的是集体主义与‘家园情怀’... 2. 而《星际穿越》则更聚焦于个人主义、爱与探索的‘开拓精神’...”
【核心点】: 你会发现,ChatGPT全程在聊天框内完成任务。它是一个出色的知识库和文本生成器。
但它的核心局限在于:它是一个被动的回复者。它无法主动为你执行物理世界或网络世界的具体动作。它被限制在文本界面内,等待你提问,然后给出回答。
二、 什么是智能体?—— 具备行动力的执行者
如果说LLM是大脑,那么智能体就是 大脑 + 感知 + 工具 的组合。
1. 它的本质:一个目标执行者
你不再是给它一个问题,而是给它一个目标。
- 对LLM说:怎么订机票? (它回答你步骤)
- 对Agent说:帮我订一张明早8点到10点,从北京到上海的机票,预算1000元内。 (它会尝试去执行)
2. 它是如何行动的?(Agent的核心四要素)
一个Agent之所以能行动,因为它被设计成一个循环工作流 (Loop):
-
大脑 (LLM Core): Agent的核心依然是一个强大的LLM(比如GPT-4)。它负责思考和规划。
- 目标是订机票。我需要:1. 查航班;2. 筛选;3. 锁定;4. 预订。
-
工具 (Tools): 这是它的手脚。Agent被授权使用一系列工具(通常是API接口或代码)。
- 工具1:
Google Search(query) - 工具2:
book_flight(date, from, to, price) - 工具3:
read_file(path)
- 工具1:
-
感知 (Perception): 它能读取工具执行的结果,以供大脑决策。
- (使用工具1后)... “我查到了3个航班:CA101 (9点, 800元), MU505 (10点, 1100元)...”
-
记忆 (Memory): 它记得自己做过什么,以及结果如何,避免重复或出错。
- (LLM大脑反思)... “MU505超预算了。CA101符合所有要求。好,下一步,调用工具2:
book_flight(CA101)...”
- (LLM大脑反思)... “MU505超预算了。CA101符合所有要求。好,下一步,调用工具2:
3. 案例:AutoGPT——执行者的理念演示
2023年,AutoGPT项目引起了广泛讨论。虽然它在实际应用中还有很多局限,但它很好地演示了Agent的理念。
你(用户):帮我调研一下"AI Agent"的最新市场趋势,并写一份总结报告存到我的电脑D盘。
AutoGPT (Agent) 的工作流程:
- [规划]:收到目标。我需要:1. 上网搜索AI Agent 市场趋势;2. 阅读几篇相关报告;3. 总结要点;4. 写入本地文件。
- [行动]:调用
Google Search工具。- [感知]:搜到5个链接。链接1是TechCrunch的,相关度高。
- [行动]:调用
browse_website(link1)工具。- [感知]:文章内容已获取。需要提取核心观点。
- [行动]:(调用LLM大脑)总结这篇文章...
- [循环]:(对其他链接进行类似操作)
- [规划]:素材收集完毕。开始整合并撰写报告。
- [行动]:调用
write_file('D:\Report.txt', '总结报告内容...')- [结束]:任务完成。
【核心点】: Agent是一个主动的工作流。它会自己“思考-行动-观察-再思考”,循环往复,直到达成你设定的目标。
三、 核心对比:LLM vs. Agent
这张对比表可以帮你更清晰地分辨它们:
|
特性 |
LLM |
Agent |
|---|---|---|
| 角色 |
知识问答与内容生成者 |
目标驱动的任务执行者 |
| 输入 |
一个问题或指令 (Prompt) |
一个目标 (Goal) |
| 输出 |
一段文本 (Text) |
一个任务结果 (Task Result) |
| 工作方式 | 被动响应
(问一句,答一句) |
主动循环
(思考-行动-观察-再思考) |
| 核心能力 |
语言理解、知识问答、文本生成 |
任务规划、工具使用、自我反思 |
| 局限性 |
无法直接执行现实世界的任务 |
依赖LLM的规划能力,尚处在发展早期 |
简单来说:LLM 负责思考,Agent 负责执行。Agent 把 LLM 作为自己的思考中枢,然后利用工具去操作、去连接外部世界。
四、 为什么 Agent 是 AI 发展的重要方向?
我们正处在一个技术发展的转折点:
- LLM时代 (已到来):我们学会了如何与一个“智能大脑”对话。我们是“提问者”。
- Agent时代 (正开启):我们将学会如何向AI授权。我们是“管理者”。
今天,LLM的能力已经很强,但它的能量大多被限制在文本交互中。而Agent,则是连接LLM与数字、物理世界的桥梁。
未来,我们的设备上可能不再是众多的APP,而是一个超级助理。你不再需要分别打开APP去订餐、打车、定闹钟。你只需要对你的Agent说: 我周五晚上想和朋友在市中心吃火锅,6点半,你帮我安排好,包括餐厅预订和来回的网约车。
这是 AI 从智能迈向赋能的一步。
总结
恭喜你,完成了第1讲的学习。我们来总结一下:
- 大模型 (LLM):是一个基于海量知识训练的大脑。它擅长理解和生成内容,但无法“直接行动”。
- 智能体 (Agent):是大脑 (LLM) + 工具 (Tools) + 感知。它是一个执行者,能主动规划并执行你给的目标。
- 核心区别:LLM是被动的回复者,Agent是主动的执行者。
当然,无论是LLM还是Agent,它们的智能都依赖于一个共同的核心架构——那个在2017年带来的关键突破。
感谢你的阅读,我们下期再见!
更多推荐



所有评论(0)