AI 名词大扫盲–总结简化版


什么是大模型?

大模型是一个 超级能思考、能理解、能生成内容的“大脑”。

但它没有"手"(不能执行操作,不能对接外部世界),没有"专属知识库"(不知道你的私有数据),没有持久记忆(每次调用对它都是全新的),而且单次对话能看到的内容也有上限(上下文窗口)。

单靠它自己,只能做聊天、出主意这类事,没法落地完成复杂的、具体的任务。

而 Agent 开发,本质上就是:

给这个强大的“大脑”,配上能干活的“手”(Tool 工具调用、Function Calling、MCP)、能存专属知识的“知识库”(RAG),让它从一个只能聊天的助理,变成一个能全自动落地完成任务的智能体。

后面要学的每一个技术,都是在补大模型的某块短板。


什么是 Prompt ?

Prompt 是 Agent 的控制面板

在 Agent 开发中,你能控制大模型行为的核心手段只有一个: Prompt。

  • System Prompt 定义了 Agent 的"身份和边界",它是谁、能做什么、不能做什么、必须以什么格式输出
  • User Prompt 和注入的内容是 Agent 的"任务输入",每次要处理的具体数据、具体问题

Prompt 学到位了,以下的技术"为什么要这么写"你才能看明白:

  • Function Calling:本质是让大模型按精确格式输出"工具调用指令",靠的是严格的格式约束 Prompt
  • RAG:检索到的知识片段要注入到 Prompt 里,怎么组织这段内容,直接影响模型能不能用对信息
  • Agent:多步骤任务的"决策逻辑"、“工具使用规范”、“异常处理方式”,全写在 System Prompt 里

一句话:大模型的能力是固定的,Prompt 决定你能调动它多少。写好 Prompt,是用好大模型的前提,是 Agent 开发的基础功。


什么是 Agent ?

Agent 是什么:以大模型为大脑,能自主调用工具、完成多步骤任务的程序。让大模型从"只能说"变成"能干"。

核心组成:

大模型(大脑)+ 工具(双手)+ 记忆(记事本)+ 执行循环(节拍器)

核心机制:

Think → Act → Observe 循环,每轮工具结果都回流给大模型,直到完成

和 Workflow 的本质区别:决策者不同,Workflow 是你提前写好的代码逻辑,Agent 是大模型实时推理。两者不是竞争关系,实际系统里经常结合使用


什么是 Tool ?

工具是 Agent 的「双手」,没有工具,Agent 只是一个只会输出文字的大模型;有了工具,Agent 才能真正和外部世界交互、完成具体任务。

一个工具 = 函数本体 + 名称 + 描述 + 参数定义。

大模型看不到函数本体,它靠 name + description + parameters 来判断该不该用这个工具、怎么用。其中 description 最关键,是大模型选工具的唯一依据。

四类工具,风险从低到高:

类型 典型场景 风险 Agent 能自主调用?
查询类 查天气、读文件、搜索网页 可以
写入类 发通知、改配置、写数据库 高风险操作需人工确认
执行类 跑脚本、重启服务、部署代码 必须人工审批
AI 辅助类 RAG 检索、调用子模型 低~中 通常可以,关注结果质量

工具描述的清晰度决定 Agent 的准确率


什么是 Function Call ?

Function Calling 是什么:大模型和 Agent 之间的标准化工具调用协议,解决的是「大模型做出调用决策后,如何精准传递指令」的问题,是整个 Agent 开发的底层基础。

为什么需要它:没有 Function Calling 之前,只能用自然语言在 System Prompt 里描述工具,大模型的回复格式完全不可控,开发者要写大量解析和纠错代码;有了 Function Calling,双方都遵循固定的 JSON 规范,彻底告别猜谜。

三部分结构:

工具定义(我能用什么)→ AI 调用格式(我要调哪个)→ 工具返回结果(调完得到什么)


什么是 MCP ?

MCP 是什么:Anthropic 推出的开放标准协议,定义了 AI 应用和工具服务之间如何标准化通信,是 AI 工具世界的「USB-C」。

为什么需要它:没有统一标准时,每个工具都要自己写集成,多模型场景下是 N×M 的重复工作量;MCP 把这个问题变成 N+M,工具写一次,全平台可用。

三大角色:

Host(AI 应用)通过内置的 Client(连接器)调用 MCP Server(工具服务),职责清晰,完全解耦。

三种能力:

Tools(可执行操作)、Resources(可读取数据)、Prompts(可复用模板),覆盖 AI 在工具调用场景下的所有需求。


什么是 RAG?

RAG 是什么:Retrieval-Augmented Generation,检索增强生成。先从知识库里找到相关内容,再把这些内容加进 Prompt,让大模型基于私有数据生成有据可查的回答。

为什么需要它:大模型的知识是静态的、封闭的,而业务数据是动态的、私有的。把数据全量塞进 Prompt 行不通,超 token 限制、费钱、注意力稀释。RAG 用「按需检索 + 动态注入」绕开了这个死局。

两大阶段:

离线阶段建知识库(加载→切块→向量化→存库),在线阶段查询生成(问题向量化→语义搜索→构造增强 Prompt→大模型生成回答)。

向量化和语义搜索:文字转化为代表语义的数字坐标(向量),语义相近的内容向量距离近。语义搜索不靠关键词匹配,靠语义相似度,能找到「意思相关但词语不同」的内容。

在 Agent 里的位置:RAG 就是一个特殊的工具,「检索知识库」被封装成一次 Function Call,是 Agent 能力体系的重要组成部分。


什么是向量数据库?

向量数据库专门解决「海量向量中毫秒级找最近邻」这个问题,靠的是 ANN 索引。

普通数据库存向量没问题,但查向量相似度完全没有优化。百万级向量 + 高维(1536 维)的暴力遍历,每次查询几十亿次浮点运算,压根跑不起来。

HNSW 是最主流的 ANN 索引,核心思路是多层图结构:高层大范围快速跳转,低层精细定位,就像图书馆的多级目录,不用翻所有书就能找到目标区域。代价是牺牲极少量精度,换来 100 倍以上的速度。

选型建议:

学习用 Chroma,生产不想运维用 Pinecone,生产私有化部署用 Milvus 或 Qdrant。

理解了向量数据库,RAG 的离线建库这条链路就完整了:

文档 → 切块 → 向量化 → 存进向量数据库。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐