大模型学习必看｜Transformer/QKV/Function Calling/MCP 协议详解（程序员收藏备用）

很多人觉得 LLM 高深莫测，但剥去技术外壳，其核心原理其实是「高级文字接龙」—— 基于上下文预测下一个最可能出现的 token（词汇 / 字符），就像我们玩接龙游戏时，根据前半句联想最贴合的后半句。如果用程序员容易理解的逻辑类比：而大模型生成回答的过程，并非一次性计算，而是循环执行「预测 - 生成 - 拼接」的函数逻辑：先预测第一个 token，将其加入上下文后再预测下一个，直到生成符合语境的完

EnjoyEDU

137人浏览 · 2025-11-28 09:55:09

EnjoyEDU · 2025-11-28 09:55:09 发布

1、大语言模型（LLM）

很多人觉得 LLM 高深莫测，但剥去技术外壳，其核心原理其实是「高级文字接龙」—— 基于上下文预测下一个最可能出现的 token（词汇 / 字符），就像我们玩接龙游戏时，根据前半句联想最贴合的后半句。

如果用程序员容易理解的逻辑类比：

问题 = 函数输入（input）
大模型 = 智能函数（内置万亿级参数的黑盒模型）
回答 = 函数输出（output）

而大模型生成回答的过程，并非一次性计算，而是循环执行「预测 - 生成 - 拼接」的函数逻辑：先预测第一个 token，将其加入上下文后再预测下一个，直到生成符合语境的完整内容 —— 这也是为什么 LLM 能输出连贯文本的核心原因。

值得补充的是，LLM 的爆发绝非偶然，而是技术积累的必然结果：

2023 年被称为「AI 应用元年」，ChatGPT 的横空出世让 LLM 走进大众视野，但这背后是三大关键技术的持续迭代：

Transformer 架构（2017 年提出）：奠定了并行计算与上下文关联的基础，让模型能高效处理长文本；
参数规模爆发：从百亿级到万亿级参数的突破，让模型能学习更复杂的语言规律和知识；
人工反馈强化学习（RLHF）：通过人类标注优化模型输出，让回答更贴合人类需求，而非单纯的逻辑正确。

一个值得深思的问题：能流畅生成语言，就代表拥有智能吗？

其实 LLM 的「文字接龙」本质是概率计算，而非真正的理解 —— 它能根据统计规律输出合理答案，但未必懂背后的逻辑。这也是为什么我们需要学习底层原理，而不是只停留在 API 调用层面的关键。

2、Transformer (自注意力机制)

Transformer 的核心是「自注意力机制」，简单说就是让模型在生成每个 token 时，能动态关联上下文的关键信息 —— 比如写 “小明吃完冰淇淋，结果____” 时，模型能识别 “冰淇淋（冷饮）” 与 “吃完（动作）” 的关联，从而预测 “肚子疼”。

这种关联能力的实现，依赖于每个 token 的三个核心向量（Q、K、V），以及一套完整的推理流程：

核心概念拆解

Token：文本分词后的基本单位（比如 “小明”“吃完”“冰淇淋” 都是独立 token）；
Q（Query，查询向量）：当前 token 要 “查询” 上下文的关键词；
K（Key，线索向量）：上下文 token 提供的 “匹配线索”；
V（Value，答案向量）：上下文 token 对应的 “语义信息”；
推理逻辑：用当前 token 的 Q，匹配所有 token 的 K，计算相似度（权重），再用权重加权求和 V，得到上下文向量，最终预测下一个 token。

最简化示例: 小明吃完冰淇淋，结果 => 肚子疼。

首先分词及每个token的 Q, K, V向量。

token	Q（查询）	K（键）	V（值）	语义解释
小明	[0.2, 0.3]	[0.5, -0.1]	[0.1, 0.4]	人物主体
吃完	[-0.4, 0.6]	[0.3, 0.8]	[-0.2, 0.5]	动作（吃完）
冰淇淋	[0.7, -0.5]	[-0.6, 0.9]	[0.9, -0.3]	食物（冷饮，可能致腹泻）
结果	[0.8, 0.2]	[0.2, -0.7]	[0.4, 0.1]	结果（需关联原因）

接着开始推理:

1. 使用最后一个 token 的 Q（“结果”的 Q 向量）

Q_current = [0.8, 0.2]

2. 计算 Q_current 与所有 K 的点积（相似度）

点积公式：Q·K = q₁k₁ + q₂k₂

Token	K向量	点积计算	结果
小明	[0.5, -0.1]	0.8 * 0.5 + 0.2*(-0.1) = 0.4 - 0.02	0.38
吃完	[0.3, 0.8]	0.8 * 0.3 + 0.2 * 0.8 = 0.24 + 0.16	0.4
冰淇淋	[-0.6, 0.9]	0.8(-0.6) + 0.2 0.9 = -0.48 + 0.18	-0.3
结果	[0.2, -0.7]	0.8 * 0.2 + 0.2*(-0.7) = 0.16 - 0.14	0.02

3. Softmax 归一化得到注意力权重

将点积结果输入 Softmax 函数

Token	点积	指数值（e^x）	权重
小明	0.38	e^0.38 ≈ 1.46	1.46 / 2.74 ≈ 0.53
吃完	0.4	e^0.40 ≈ 1.49	1.49 / 2.74 ≈ 0.54
冰淇淋	-0.3	e^-0.30 ≈ 0.74	0.74 / 2.74 ≈ 0.27
结果	0.02	e^0.02 ≈ 1.02	1.02 / 2.74 ≈ 0.37

4. 加权求和 V 向量生成上下文向量

将权重与对应 V 向量相乘后相加：

Token	权重	V向量	加权 V 向量
小明	0.53	[0.1, 0.4]	0.53*[0.1, 0.4] ≈ [0.053, 0.212]
吃完	0.54	[-0.2, 0.5]	0.54*[-0.2, 0.5] ≈ [-0.108, 0.27]
冰淇淋	0.27	[0.9, -0.3]	0.27*[0.9, -0.3] ≈ [0.243, -0.081]
结果	0.37	[0.4, 0.1]	0.37*[0.4, 0.1] ≈ [0.148, 0.037]

最终上下文向量：

[0.053−0.108+0.243+0.148,0.212+0.27−0.081+0.037]=[0.336,0.438]

5. 预测下一个 token

模型将上下文向量 [0.336, 0.438] 与候选 token 的嵌入向量对比：

嵌入向量不作过多解释, 只要知道QKV三个向量可从嵌入向量计算得到即可

候选词	嵌入向量	相似度（点积）	概率
肚子疼	[0.3, 0.5]	0.336 * 0.3 + 0.438 * 0.5 ≈ 0.101 + 0.219 = 0.320	最大概率（例如 65%）
头疼	[0.2, 0.1]	0.336 * 0.2 + 0.438 * 0.1 ≈ 0.067 + 0.044 = 0.111	次之（例如 20%）
开心	[-0.5, 0.8]	0.336(-0.5) + 0.438 0.8 ≈ -0.168 + 0.350 = 0.182	较低（例如 15%）

最终模型选择最高概率的 “肚子疼” 作为下一个 token。

注意在实际场景中，预测的下一个token是不确定的，是因为有一个掷骰子的操作，大模型会在概率最大的几个token中随机挑选一个作为最终输出。

3、Prompt (提示词)

提到 Prompt，大家第一反应是 ChatGPT 中的 “你是一个 XX 专家”—— 但这只是 Prompt 的冰山一角，甚至算不上严格意义上的 “核心 Prompt”。

真正的 Prompt，是让模型明确 “任务目标 + 输出格式 + 约束条件” 的指令集合，而 “角色设定” 只是其中的 “约束条件” 之一。

为什么这么说？我们结合大模型的 API 调用逻辑就能理解：

大模型的核心是 “文字接龙”，而 Prompt 的本质是 “给接龙游戏定规则”—— 比如让模型 “总结这篇文章的 3 个核心观点，用 bullet points 呈现”，就是明确了 “任务目标（总结）+ 输出格式（bullet points）”；而 “你是一个严谨的科研顾问”，则是明确了 “语气约束（严谨）”。

很多初学者只关注 “角色设定”，却忽略了 “任务目标和输出格式” 的明确性，导致模型输出不符合预期 —— 这也是我们在训练营中强调 “Prompt 工程实战” 的原因：真正的 Prompt 高手，能通过精准指令让模型输出 “可直接使用的结构化结果”，而不是模糊的自然语言。

4、理解API

我们前面提到过大语言模型的本质就是文字接龙，相对应的使用大模型也比较简单。可以参见deepseek的文字接龙 api 请求：

https://api-docs.deepseek.com/zh-cn/api/create-chat-completion

这里比较重要的几个部分，需要理解:

1. temperature 温度

Temperature（温度）是一个控制生成文本随机性和多样性的关键参数。它通过调整模型输出的概率分布，直接影响生成内容的“保守”或“冒险”程度。看几个典型场景:

场景	温度
代码生成/数学解题	0
数据抽取/分析	1
通用对话	1.3
翻译	1.3
创意类写作/诗歌创作	1.5

2. tools 工具****支持

大模型对 function calling 的支持，后面再详细介绍。

3. 角色和信息

这一部分是ai对话的主体。其中role 定义了四个角色。

system 系统设定。
user 用户回复。
assistant 模型回答。
tool 是配合function call工作的角色，可以调用外部工具。

回到前一章的问题，ai对话时其实是user部分输入的内容，所以system角色的设定内容才应该是严格意义上的Prompt。

这有啥区别呢? (user 与 system?)

个人一个合理的猜测: system的内容在Transformer推理中拥有较高的权重。所以拥有较高的响应优先级。

4. 关于多轮对话

因为LLM是无状态的。我们要时刻记得文字接龙的游戏，因此在实际操作中也是这样的。

在第一轮请求时，传递给 API 的 messages 为。

大模型回答。

当用户发起第二轮问题时，请求变成了这样

5、Function Calling (函数调用)

仅仅一个可以回答问题的机器人，作用并不太大。

要完成复杂的任务，就需要大模型的输出是稳定的，而且是可编程的。

因此OpenAI 推出了 function calling的支持。也就是前面提到的 tools参数相关内容。

1. 基本流程

工具声明及用户输入

模型检测到需要使用工具，返回相关工具参数

开发者根据方法名和参数，调用相关工具方法

将工具方法的返回值，附加到请求中，再次请求大模型

得出最终结果

"The current temperature in Paris is 14°C (57.2°F)."

总结一下

2. 实现原理(猜测)

a. 实现方式一: prompt 遵循 (示例)

提前设置规则:

b. 实现方式二: 模型训练特定优化

对结构化输出有特定要求，可能需要特定训练吧。这个不太确定?

6、Agent (智能体)

包含: 大模型，任务规划，上****下文记忆，工具调用。它是大模型能力的拓展。其实只要对API进行简单的封装，只要能完成特定任务，都可以称为智能体。比如下面的例子:

1. 创建AI客服系统

这个智能体，主要包括:

配置了一个 prompt: “你是一个电商客服，可查询订单状态”
引入 query_order 工具

2. 其它创建方式

服务商开放接口，供用户创建，比如腾讯元器：

https://yuanqi.tencent.com/my-creation/agent

一个简单的提示词都可以创建智能体：

7、MCP (模型上下文协议)

通过上面的智能体调用工具的示例我们可以看到，每接入一个工具，都需要编写相应的接入代码。经常写代码的我们都知道，这不是好的架构设计。好的设计应该把动态改变的部分 ( tools的声名和调用分离出来 )，做为一个独立的模块来拓展。这就有了大众追捧的 MCP: -----(哪有这么玄，都是程序员的常规操作啊…)

MCP是工具接入的标准化协议

https://modelcontextprotocol.io/introduction

遵循这套协议，可以实现工具与Agent的解耦。你的Agent 接入MCP协议的client sdk后。接入工具不再需要编写工具调用代码，只需要注册 MCP Server就可以了。而MCP Server可由各个服务商独立提供。

MCP Server做什么呢?

声明提供的能力 ListTools。
调用能力的方式 CallTool。

来看一下MCP Server的部分代码 (红框中就是做上面两个事，不难理解) :

8、A2A (Agent通信协议)

A2A（Agent to Agent）是 MCP 协议的延伸，核心是解决 “智能体之间的通信标准化”—— 让一个 Agent 能像调用工具一样，调用另一个 Agent 的能力，实现 “分工协作”。

应用场景：多 Agent 协作完成复杂任务

比如 “举办一场线上会议” 的任务，可拆分给 3 个 Agent：

会议规划 Agent：负责确定会议时间、发送邀请、生成议程；
内容记录 Agent：负责会议录音转文字、提取核心观点；
后续跟进 Agent：负责生成会议纪要、分配任务、设置提醒。

这 3 个 Agent 通过 A2A 协议通信：

会议规划 Agent 完成议程后，通过 A2A 协议将议程传递给内容记录 Agent；
内容记录 Agent 完成文字转写后，通过 A2A 协议将结果传递给后续跟进 Agent；
最终由后续跟进 Agent 向用户输出完整结果。

核心价值：打破 Agent 的 “信息孤岛”

A2A 协议让每个 Agent 都成为 “功能模块”，可以按需组合 —— 比如你开发的 “数据分析 Agent”，可以被其他团队的 “报告生成 Agent”“决策支持 Agent” 调用，形成生态化协作。

9、未来假想

如同蒸汽机、电、计算机改变人类社会一样，AI（尤其是大模型）正在重塑各行各业的工作方式，而程序员群体首当其冲 —— 但这不是 “失业危机”，而是 “能力升级危机”。

1. 程序员不会消失，但 “只会写业务代码” 的人会被淘汰

未来 5 年，纯粹的重复性业务代码（如 CRUD、简单接口开发）会被 AI 完全接管 —— 但这并不意味着程序员失业，而是催生出新的职业角色：AI 编程工程师。

AI 编程工程师的核心职责是：

解决 AI 的 “模糊性问题”：AI 能生成代码，但无法判断业务逻辑的合理性、系统架构的稳定性，需要人类把控核心设计；
工具化自己的经验：将行业积累、技术沉淀封装成 MCP Server 或 Agent，挂载到项目中，让 AI 调用；
专注高价值工作：比如系统架构设计、技术难点攻克、AI 模型微调与优化 —— 这些是 AI 短期内无法替代的。

2. 现在就能交给 AI 的 3 类工作（提高效率，聚焦核心）

重复性工作：日常反馈分析、数据清洗、简单文档撰写、基础代码生成；
知识管理类：团队知识库构建、技术文档翻译与整理、历史项目代码注释；
辅助性工作：创意构思（如文案初稿、代码思路）、资料检索、会议纪要生成。

3. 给 IT 从业者的核心建议：从 “会用工具” 到 “掌握底层”

现在很多人沉迷于 “API 调用 + Prompt 技巧”，但这只是 “玩具级应用”—— 真正能在 AI 时代立足的，是掌握底层逻辑（如 Transformer 原理、模型微调、工具开发）的人。

如果你是：

零基础 / 非科班：从 “大模型基础 + Python 编程” 入门，先掌握 Prompt 工程和简单工具调用，再深入底层原理；
在职程序员：聚焦 “大模型与本职工作的结合”（如用 Agent 自动化工作流程、用 Function Calling 优化现有系统），同时补充模型微调、应用开发技能；
想转行 AI：优先学习 “大模型部署 + 微调 + 应用开发” 实战技能，通过项目积累经验（比如搭建一个专属 Agent、开发 MCP 工具），快速切入高薪赛道。

AI 的浪潮已来，与其担心被取代，不如主动拥抱变化 —— 掌握大模型的底层逻辑和实战能力，才能成为 AI 时代的 “掌舵者”，而非 “被淘汰者”。

如今技术圈降薪裁员频频爆发，传统岗位大批缩水，相反AI相关技术岗疯狂扩招，薪资逆势上涨150%，大厂老板们甚至开出70-100W年薪，挖掘AI大模型人才！

技术的稀缺性，才是你「值钱」的关键！

具备AI能力的程序员，比传统开发高出不止一截！有的人早就转行AI方向，拿到百万年薪！👇🏻👇🏻

请添加图片描述

是不是也想抓住这次风口，但卡在 “入门无门”？

小白：想学大模型，却分不清 LLM、微调、部署，不知道从哪下手？
传统程序员：想转型，担心基础不够，找不到适配的学习路径？
求职党：备考大厂 AI 岗，资料零散杂乱，面试真题刷不完？

别再浪费时间踩坑！2025 年最新 AI 大模型全套学习资料已整理完毕，不管你是想入门的小白，还是想转型的传统程序员，这份资料都能帮你少走 90% 的弯路

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图，厘清要学哪些

一个明确的学习路线可以帮助新人了解从哪里开始，按照什么顺序学习，以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1级别:大模型核心原理与Prompt

在这里插入图片描述

L1阶段： 将全面介绍大语言模型的基本概念、发展历程、核心原理及行业应用。从A11.0到A12.0的变迁,深入解析大模型与通用人工智能的关系。同时,详解OpenAl模型、国产大模型等,并探讨大模型的未来趋势与挑战。此外,还涵盖Pvthon基础、提示工程等内容。
目标与收益:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为AI应用开发打下坚实基础。

L2级别：RAG应用开发工程

请添加图片描述

L2阶段： 将深入讲解AI大模型RAG应用开发工程,涵盖Naive RAGPipeline构建、AdvancedRAG前治技术解读、商业化分析与优化方案,以及项目评估与热门项目精讲。通过实战项目，提升RAG应用开发能力。

目标与收益: 掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。

L3级别：Agent应用架构进阶实践

请添加图片描述

L3阶段： 将深入探索大模型Agent技术的进阶实践,从Langchain框架的核心组件到Agents的关键技术分析,再到funcation calling与Agent认知框架的深入探讨。同时,通过多个实战项目,如企业知识库、命理Agent机器人、多智能体协同代码生成应用等,以及可视化开发框架与IDE的介绍,全面展示大模型Agent技术的应用与构建。

目标与收益:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。