一、AI Agent(你的“智能管家”)

官方定义:AI Agent(人工智能代理)是能够感知环境、进行决策和执行动作的智能实体。

简单说就是:有脑子(LLM)+会动手(工具调用)+懂复盘(记忆)的智能打工人。如果把AI比作“打工人”,普通AI是只会回答问题的客服,而‌Agent则是能帮你订机票、写报告、管日程的全能管家‌。

二、LLM(AI的“大脑皮层”)

官方定义:大型语言模型(Large Language Model)是基于Transformer架构,通过海量文本训练获得的文本理解和生成系统(引自《深度学习和大模型原理与实践》)。

人间翻译:这货就是个超级语言缝合怪。你喂给它全网小说,它就能写网文;给它科研论文,它敢装教授。LLM是AI的“大脑皮层”,负责把杂乱的信息转化成人类能理解的逻辑——比如把“我想吃火锅”翻译成“搜索附近评分高的川味火锅店”。

关键限制‌:

  • ‌上下文窗口‌:像人脑短期记忆有限一样,LLM一次处理的文本长度受限(比如ChatGPT-4最多“记住”128k个token,约10万字)‌;

  • ‌幻觉问题‌:若训练数据不足,LLM可能编造看似合理实则错误的内容(比如虚构历史事件)。

三、Prompt (给AI的“行动指令”)

官方定义:通过设计特定提示词引导模型生成预期输出的技术(《收藏级大模型基础》是这么说的)。

人话翻译‌:Prompt就像给AI下的“订单”——写得越清晰,AI“做菜”越合你口味。

举个例子‌:

  • ‌差Prompt‌:“写首诗”(AI可能生成小学生水平的打油诗)。

  • ‌好Prompt‌:“写一首七言绝句,主题是春天,每句包含一个颜色词汇,避免使用‘红’‘绿’等常见字”‌。

四、Token(AI的“文字积木”)

官方定义:文本处理的最小单位,可以是字、词或子词;LLM通过token拆分和理解输入输出‌。

拆解艺术:

  • 中文:"人工智能" → ["人","工","智能"](3个Token)

  • 英文:"unbelievable" → ["un","believe","able"](3个Token)

  • 代码:"print('hello')" → ["print","(","'","hello","'",")"](6个Token)

为什么重要‌:

  • ‌成本计算‌:API按token收费(比如GPT-4每1000个token约0.03美元)。

  • ‌性能优化‌:减少无效token(如冗余形容词)能提升响应速度‌。

五、RAG(给AI的“外部知识库“)

官方解释:RAG技术,是一种基于检索增强的生成技术。它通过从大型外部数据库中检索与输入问题相关的信息,来辅助大模型回答问题。

说人话:相当于给一个“通才”配了一本实时更新的百科全书。每次回答问题前,AI先翻书查资料,再结合书里的内容作答。例如,法律AI通过检索最新法规库生成答案。

作用‌:

  • ‌实时补充知识‌:直接从数据库调用最新数据(比如查2025年的经济数据)‌;

  • ‌减少胡说八道‌:用真实资料约束AI的想象力(比如防止它编造不存在的法律条款)‌。

六、微调

官方解释:在预训练模型基础上,使用特定领域数据调整模型参数,使其适应特定任务的技术。通过二次训练,模型内部参数被优化以提升专业领域表现。

通俗解释:类似让一个“通才”去上专业培训班。经过大量法律案例训练后,AI变成法律专家,但知识库固定在培训时的数据,不会自动更新。就像让一个通才厨师专门学做川菜——用大量川菜菜谱训练他,直到他炒的麻婆豆腐比普通厨师更地道‌。

比较RAG与微调:

维度

RAG

微调

知识更新

动态更新知识库即可(如更新法规库)

需重新训练模型(成本高、耗时长)

成本与资源

较低(无需训练模型,只需维护知识库)

高(需大量标注数据+算力)

适用场景

需实时信息(如医疗、新闻)

任务稳定(如固定流程的合同审查)

可解释性

答案可追溯至知识库(如引用法条)

黑箱操作(无法解释推理过程)

多任务支持

灵活支持多领域(只需切换知识库)

专精单一任务(如法律问答专用模型)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐