技术演进主线(一张图看懂)

能力目标 核心技术路线 对应章节 关键词
能回答 LLM基础 → 强推理 → 长上下文 → 多模态 第1类 CoT、o1、Long Context、VLM
能对齐 偏好优化 → 安全约束 → 可控输出 第2类 DPO、Constitutional AI、Guardrails
能查证 RAG 1.0(能查)→ RAG 2.0(查得准)→ RAG 3.0(查不到会自救)
+ GraphRAG(关系推理)
第3-4类 Embedding、Hybrid Search、Self-RAG、CRAG
能执行 Tool Use → Function Calling → 结构化调用 第5类 JSON Schema、Retry、Tool Selection
标准化生态 MCP协议(AI界的HTTP/USB) 第6类 MCP Server/Client、Connector、Tool Discovery
能协作 Agent 1.0(单Agent)→ Agent 2.0(Multi-Agent)→ Agent 3.0(工作流)
+ Skills(SOP模块化)
第7-8类 ReAct、Multi-Agent、LangGraph、Claude Skills
能上线 推理优化 → 部署加速 → 成本控制 第9类 vLLM、Quantization、KV Cache、Streaming
能持续变强 Eval 1.0(离线指标)→ Eval 2.0(LLM-as-a-Judge)→ Eval 3.0(Tracing+回归)
+ 安全治理
第10-11类 RAGAS、LLM-as-a-Judge、Tracing、Prompt Injection
最终产品 AI Chat / AI Search / Copilot / KB Bot / Agent Automation 第12类 技术落地成可用产品

1. 模型能力升级(Model Frontier)

目标:让模型更强、更长、更省、更会推理

1.1 强推理模型(Reasoning)

是什么:让模型在回答前"想一想",而不是直接输出

解决什么:数学/逻辑/代码推理更稳、更少乱编

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
CoT(Chain-of-Thought) 把一条思路写清楚 推理过程看不见 做数学题、逻辑推理
ToT(Tree of Thought) 同时试很多条思路 一条路走不通就卡住 下棋、复杂决策
Self-Consistency 多跑几次投票 一次结果不稳定 关键决策、要求高准确率
Verifier / Critic 专门负责检查对错 答案对不对没人管 代码验证、答案审核
🔥 o1-style Reasoning 长推理+自检 复杂问题想不透 超难推理任务
🔥 Process Reward Model (PRM) 奖励过程走得对 只看结果不看过程 评估推理质量
🔥 MCTS for LLM 用搜索树找最优路径 不知道哪条路最好 策略优化、路径搜索

✅ 解决:复杂逻辑题、数学题、代码推理准确率大幅提升


1.2 长上下文 & 长文理解

是什么:一次能读超长文档/长代码/长对话

解决什么:传统模型只能读几千字,现在能读几十万字

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Long Context 一次能读很长的文档 文档太长读不完 读整本书、整个代码库
Sparse Attention 只看重点不看全部 长文档算太慢 超长文本、降低计算量
KV Cache优化 记住前面说过的话 重复计算浪费时间 多轮对话、长文本生成
Context Compression 把长文压缩成重点 太长了塞不进去 超长文档摘要
🔥 Infinite Context 理论上无限长 还是有长度限制 极限长文档
🔥 Context Caching 重复的部分不重复算钱 重复内容重复计费太贵 省钱、降成本
🔥 Needle in Haystack Test 大海捞针测试 不知道长文理解能力行不行 测试模型能力

✅ 解决:一次读完整本书、整个代码仓库、长对话历史


1.3 多模态(图像/语音/视频)

是什么:模型能处理图片/语音/视频等多种输入输出

解决什么:让AI"看得懂、听得懂、画得出"

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
VLM(视觉语言模型) 看图问答 图文理解 截图理解、图表分析
文生图(Diffusion) 生成图像 创意设计 海报、插画、UI素材
ASR/TTS 语音识别/合成 语音交互 会议转写、语音助手
视频理解/生成 视频处理 视频内容理解与创作 视频总结、视频生成
🔥 Any-to-Any Models 任意模态互转 文本/图像/语音/视频自由转换 多模态创作
🔥 Real-time Multimodal 实时多模态 低延迟的多模态交互 实时对话
🔥 Multimodal RAG 多模态RAG 检索图片/视频/音频 多媒体知识库

✅ 解决:跨模态理解与生成,AI不再只会"说"


1.4 成本效率路线(高性价比)

是什么:用更低成本获得更强能力

解决什么:推理更快、部署更省钱

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
MoE(混合专家) 稀疏激活 更低成本扩展能力 大规模推理服务
Quantization(量化) INT4/FP8 显存占用减少 端侧部署、成本优化
Distillation(蒸馏) 知识迁移 大模型能力迁移给小模型 边缘部署
Speculative Decoding 投机解码 加速输出 低延迟要求
🔥 1-bit LLMs 1比特大模型 极致压缩 极低资源环境
🔥 Mixture of Depths (MoD) 深度混合 动态调整计算深度 自适应计算
🔥 Prompt Caching Prompt缓存 重复Prompt不重复计费 成本优化

✅ 解决:性价比优化,让更多场景用得起大模型


2. 对齐与"可控输出"(Alignment & Control)

目标:让模型更听话、更安全、更可控

是什么:通过训练让模型输出符合人类偏好、避免有害内容

解决什么:减少幻觉、避免越狱、企业可用

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
DPO / IPO / ORPO / KTO 偏好优化新流派 比RLHF更简单 对齐训练、偏好学习
RLAIF AI反馈对齐 降低人工成本 自动化对齐、规模化训练
Constitutional AI 规则约束 模型价值观一致 安全边界、伦理约束
Guardrails 输出护栏 实时约束输出 内容过滤、格式约束
Structured Output 结构化输出约束 保证格式 JSON输出、API调用
🔥 RLAIF AI反馈强化学习 完全自动化对齐 规模化对齐
🔥 Weak-to-Strong Generalization 弱到强泛化 用弱模型监督强模型 超级对齐
🔥 Scalable Oversight 可扩展监督 解决超人类能力的对齐问题 未来AI对齐

✅ 解决:模型更可控、更安全、更符合企业要求


3. 知识增强技术栈(RAG 1.0 → 2.0 → 3.0)

目标:让模型基于证据回答,并能查来源

演进逻辑:RAG 1.0 能查 → RAG 2.0 查得准 → RAG 3.0 查不到会自救


3.1 RAG 1.0:能查(基础检索增强)

是什么:检索增强生成,让AI知道你的私有资料

解决什么:模型不知道私有资料/最新资料,容易胡编

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Chunking 把长文档切成小块 长文档没法直接搜 处理PDF、Word、Markdown
Embedding 把文字变成数字向量 计算机看不懂文字 所有文本都要先转向量
Vector DB 存向量、快速搜 向量太多搜不过来 用Milvus/FAISS/Pinecone
Hybrid Search 关键词+语义一起搜 只用一种搜不全 BM25+向量双管齐下
Re-ranking 把最相关的排前面 搜出来一堆但不准 用Cross Encoder精排
🔥 Contextual Embedding 带上下文一起向量化 单独的chunk缺上下文 提高检索准确率
🔥 Matryoshka Embedding 套娃式多粒度向量 向量维度固定不灵活 需要不同粒度的向量

✅ 解决:让AI知道你的资料、减少胡编、可引用溯源


3.2 RAG 2.0:查得准(检索优化)

是什么:优化检索策略,提高命中率和信息完整性

解决什么:用户问题模糊、检索不准、信息不全

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Query Rewrite 查询改写 用户问题模糊 口语化问题→可检索表达
Multi-query 多路检索 一问多搜提高召回 同一问题生成3-5个变体
HyDE 假设性文档嵌入 抽象问题难搜 先生成"假答案"再检索
Contextual Retrieval 上下文检索 chunk孤立问题 每个chunk带文档上下文
Parent-Child Chunking 父子块检索 多粒度检索 小块检索+大块返回
Late Chunking 延迟切分 保留更多上下文 先向量化再切分
Multi-Vector Retrieval 多向量检索 一个chunk多个向量 标题+正文分别向量化
🔥 Semantic Chunking 语义切分 按语义边界切分而非固定长度 智能文档切分
🔥 Proposition-based Retrieval 命题检索 把文档拆成原子命题再检索 精细化检索
🔥 Rewrite-Retrieve-Read 改写-检索-阅读 三段式优化流程 端到端优化

✅ 解决:命中率更高、信息更完整、召回更全面


3.3 RAG 3.0:查不到会自救(Agentic RAG)

是什么:检索失败能自修复、能多轮探索证据、能判断是否需要检索

解决什么:检索失败时不是直接放弃,而是自动调整策略

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Self-RAG 自主判断是否需要检索 不是所有问题都需要检索 模型自己决定何时检索
Corrective RAG (CRAG) 纠正性RAG 检索失败自动调整策略 检索结果不相关→改写查询→重新检索
RAG Fusion RAG融合 多个检索器结果融合 向量+BM25+GraphRAG结果融合
Agentic RAG 智能体RAG RAG+Agent混合 多轮探索、工具调用、自主决策
RAPTOR 递归抽象处理 树状文档组织 文档层级摘要+多层检索
LongRAG 长文本RAG 超长文档处理 整本书、完整代码仓库
🔥 Adaptive RAG 自适应RAG 根据问题复杂度动态选择检索策略 智能策略选择
🔥 Iterative RAG 迭代式RAG 多轮检索+逐步细化答案 复杂问题分步解决
🔥 RAG with Reflection 带反思的RAG 检索后判断证据质量再决定是否重新检索 质量自检

✅ 解决:检索更智能、能自修复、能多轮探索证据


4. GraphRAG & 知识图谱增强(关系推理爆发)

目标:回答"关系类 / 多跳推理类"问题

是什么:把知识抽成"实体-关系-事件"的图,再检索子图

解决什么:跨文档推理、因果链、组织关系、流程关系

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
GraphRAG 图谱检索 多跳推理、跨文档关系 人物关系、组织架构、因果链
Hierarchical GraphRAG 分层图谱RAG 多层级关系推理 公司-部门-员工层级
Temporal GraphRAG 时间图谱RAG 考虑时间维度 事件演进、历史关系
Dynamic Knowledge Graph 动态知识图谱 实时更新的图谱 新闻事件、实时业务
Multi-hop QA 多跳问答 跨文档推理 A影响B,B关联C
NER + Relation Extraction 实体识别+关系抽取 从文本构建图谱 自动抽取实体关系
🔥 Community Detection in GraphRAG 社区发现 自动识别文档中的主题社区 主题聚类
🔥 Graph-based Re-ranking 基于图的重排序 利用图结构优化检索结果 关系增强排序
🔥 Hybrid Graph-Vector RAG 图谱+向量混合检索 兼顾关系和语义 综合检索

✅ 解决:复杂关系推理、多跳问答、因果链分析


5. 工具调用(Tool Use / Function Calling)

目标:让模型从"会说"变成"会做"

是什么:让模型能调用外部工具/API

解决什么:模型不再只会"说",能真的执行任务

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Function Calling 结构化函数调用 参数稳定输出 调用天气API、查库存、发邮件
JSON Schema 参数约束 解析不稳定 约束输出格式、参数类型
Retry / Idempotency 重试策略、幂等性 稳定执行 网络失败重试、避免重复执行
Tool Selection 工具选择 从多个工具中选择合适的 根据任务自动选工具
Parallel Tool Calling 并行工具调用 同时调用多个工具 同时查天气+查日历
🔥 Streaming Tool Calls 流式工具调用 边生成边调用工具 实时响应
🔥 Tool Calling with Validation 带验证的工具调用 调用前验证参数合法性 安全执行
🔥 Composite Tools 复合工具 多个工具组合成新工具 工具编排

✅ 解决:结构化调用外部API,稳定执行任务


6. MCP协议层(标准化生态基础设施)

目标:让工具接入标准化(AI界的HTTP/USB)

为什么MCP是独立一层?

就像HTTP是Web的标准协议、USB是硬件的标准接口,MCP是AI接入外部世界的标准协议。

它不是"一个工具",而是"工具接入的标准"。


6.1 MCP是什么

是什么:Model Context Protocol,连接外部工具/数据源的标准协议

解决什么:工具接入标准化,不用每次手搓接口

类比理解

  • HTTP之于Web:统一了网页访问标准
  • USB之于硬件:统一了设备接口标准
  • MCP之于AI:统一了工具接入标准

6.2 MCP核心能力

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
MCP Server / MCP Client 标准化接口 工具提供方和使用方解耦 任何工具都能接入
Connector 企业连接器 接入企业系统 数据库/文件系统/内部API
Tool Discovery 工具发现 自动找到合适工具 模型自动发现可用工具
Tool Composition 工具组合 多个工具协同 查数据库→生成图表→发邮件
Context Sharing 上下文共享 工具间共享状态 多个工具共享用户信息
🔥 MCP Gateway MCP网关 统一管理所有MCP服务 集中管理
🔥 MCP Marketplace MCP市场 工具生态市场 工具共享
🔥 MCP Security Layer MCP安全层 工具调用权限控制 安全管理

✅ 解决:工具接入标准化,生态快速扩展


6.3 MCP生态

典型应用

  • 企业系统接入:数据库、文件系统、内部API
  • 第三方服务接入:天气、地图、支付、物流
  • 开发工具接入:IDE、Git、CI/CD
  • 数据源接入:向量库、知识图谱、业务数据库

7. Agent系统(从聊天到"自动化执行")

目标:任务闭环(拆解→执行→检查→修复)

演进逻辑:Agent 1.0 单Agent闭环 → Agent 2.0 Multi-Agent协作 → Agent 3.0 工作流工程化


7.1 Agent 1.0:单Agent闭环

是什么:能拆任务→规划步骤→调用工具→执行→检查结果的系统

解决什么:复杂任务能跑通,而不是一次问答结束

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
ReAct 边想边做 持续观察环境并行动 动态任务、需要实时反馈
Plan-and-Execute 先计划后执行 复杂任务更可控 多步骤任务、需要全局规划
Reflection 反思纠错 自动发现错误并修复 代码调试、文档审校
Router 任务路由 不同任务用不同能力 根据问题类型选择专家Agent
Memory 记忆 跨轮对话状态保持 长对话、个性化助手
🔥 Tree-based Planning 树状规划 探索多个执行路径 复杂决策
🔥 Hierarchical Agent 层级Agent 大任务拆小任务递归执行 任务分解
🔥 Human-in-the-Loop 人在回路Agent 关键决策人工确认 高风险决策

✅ 解决:复杂任务能跑通,能自纠错,能多步执行


7.2 Agent 2.0:Multi-Agent协作

是什么:多个Agent分工协作,像团队一样工作

解决什么:任务分工更稳、更像团队

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
AutoGen / CrewAI 多智能体框架 快速搭建多Agent系统 团队协作、角色分工
Supervisor Agent 主管Agent 协调其他Agent 任务分配、进度监控
Worker Agents 执行者Agent 完成具体任务 专业分工、并行执行
Debate / Critic 争论与审校 多Agent互相检查 代码审查、方案评审
A2A (Agent-to-Agent) Agent间通信协议 Agent间信息传递 协作任务、状态同步
🔥 Dynamic Team Formation 动态团队组建 根据任务自动组建Agent团队 灵活组队
🔥 Agent Marketplace Agent市场 共享和复用Agent能力 能力共享
🔥 Swarm Intelligence 群体智能 大量简单Agent协作完成复杂任务 分布式协作

✅ 解决:复杂任务分工协作,质量更高


7.3 Agent 3.0:工作流工程化(LangGraph / Workflow)

是什么:把Agent变成可控、可回溯的工作流系统

解决什么:从Demo变成可控系统

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
LangChain 快速拼装 适合PoC 快速验证想法、原型开发
LangGraph 状态机/可回溯 复杂流程可控 生产环境、需要调试和回溯
Agentic Workflow 可循环流程 能多轮迭代 需要反复优化的任务
DSPy 声明式编程 自动优化Prompt和流程 自动调优、减少手工调参
🔥 Agent Observability Agent可观测性 追踪Agent每一步决策 调试分析
🔥 Agent Versioning Agent版本管理 管理Agent能力迭代 版本控制
🔥 Agent Testing Framework Agent测试框架 自动化测试Agent行为 质量保证

✅ 解决:Agent工程化,可控、可回溯、可循环


8. Skills / SOP模块化(流程沉淀)

目标:把"经验"变成"可复用技能包"

是什么:把标准流程封装成可复用的技能模块

解决什么:重复工作自动化,团队共享最佳实践

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Claude Skills 自动触发/渐进加载 省token 写报告、写PPT、写测试
Workflow Skills 企业SOP 标准流程封装 客服话术、审批流程、数据分析
Skill Versioning 版本管理 持续优化 技能迭代、A/B测试
Skill Composition 技能组合 多个技能协同 复杂任务拆解成多个技能
Skill Marketplace 技能市场 团队共享 企业内部技能库
🔥 Adaptive Skills 自适应技能 根据用户反馈自动优化 持续改进
🔥 Skill Chaining 技能链 多个技能自动串联执行 流程自动化
🔥 Skill Analytics 技能分析 追踪技能使用效果 效果评估

✅ 解决:重复工作自动化,团队共享最佳实践


9. 推理部署 & 成本工程(Inference Stack)

目标:能上线、能抗并发、能省钱

是什么:高性能推理引擎和优化技术

解决什么:低延迟、高吞吐、可规模化服务

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
vLLM 高吞吐推理框架 并发效率最强 API服务、高并发场景
TensorRT-LLM GPU加速引擎 极限性能 低延迟要求、GPU优化
llama.cpp / Ollama 本地端侧部署 离线可用 本地运行、隐私保护
Continuous Batching 连续批处理 动态批处理 请求到达时间不一致
PagedAttention 分页注意力 vLLM核心优化 显存优化、长上下文
Streaming 流式输出 用户体验更好 实时反馈、降低感知延迟
KV Cache优化 缓存优化 生成加速 多轮对话、长文本生成
Speculative Decoding 投机解码 加速输出 低延迟要求
🔥 SGLang 结构化生成语言 优化结构化输出推理 结构化生成
🔥 MLC-LLM 机器学习编译器 跨平台部署优化 多平台部署
🔥 Medusa Decoding 多头投机解码 更激进的加速策略 极致加速

✅ 解决:低延迟、高吞吐、可规模化服务


10. LLMOps & AI系统生产化(从Demo到生产)

目标:能度量、能优化、能回归、能持续迭代

为什么需要LLMOps?

AI系统不是"上线就完事",而是"上线才开始"。需要持续监控、评测、优化、迭代。

演进逻辑:Eval 1.0 离线指标 → Eval 2.0 LLM-as-a-Judge → Eval 3.0 Tracing + 回归体系


10.1 Eval 1.0:离线指标评测

是什么:基于固定测试集的传统评测

解决什么:系统可度量、可优化、可持续迭代

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Offline Eval 离线评测 回归可控 发版前测试、基准测试
RAGAS RAG评测框架 自动化RAG评测 Faithfulness/Relevance/Context Recall
A/B Test 对照实验 方案选择 Prompt对比、模型对比
Regression Test 回归测试 防止功能退化 每次改动后自动测试

✅ 解决:基础评测能力,但依赖人工标注


10.2 Eval 2.0:LLM-as-a-Judge(模型当评委)

是什么:用大模型自动评测大模型输出

解决什么:降低人工评测成本,提高评测效率

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
LLM-as-a-Judge 模型当评委 自动评测 答案质量评分、风格一致性检查
Online Eval 在线评测 真实效果验证 A/B测试、用户反馈

✅ 解决:自动化评测,但需要验证评委模型的可靠性


10.3 Eval 3.0:Tracing + 回归体系(完整LLMOps)

是什么:全链路追踪 + 持续优化 + 回归测试的完整体系

解决什么:生产环境可观测、可追溯、可持续优化

关键技术(可观测性)

技术 一句话说清楚 解决什么痛点 什么时候用
Tracing 全链路追踪 每步哪里错 LangSmith/LangFuse/Arize
Logging 日志记录 详细记录每次调用 调试、审计
Metrics 指标监控 延迟/成本/成功率 实时监控、告警
Prompt Versioning Prompt版本管理 Prompt迭代可追溯 Prompt优化、回滚
Cost Tracking 成本追踪 Token成本监控 成本优化、预算控制
User Feedback Loop 用户反馈闭环 收集真实反馈 持续优化、问题发现

关键技术(持续优化)

技术 一句话说清楚 解决什么痛点 什么时候用
Prompt Optimization Prompt优化 自动优化Prompt DSPy/PromptPerfect
Fine-tuning Pipeline 微调流水线 基于生产数据微调 持续学习、领域适配
Data Flywheel 数据飞轮 用户数据→优化→更好体验→更多用户 产品增长
Shadow Deployment 影子部署 新版本灰度测试 风险控制、逐步上线
Canary Release 金丝雀发布 小流量验证 新功能验证
🔥 LLM Observability Platforms LLM可观测平台 统一可观测 LangSmith/Arize/Helicone
🔥 Prompt Registry Prompt注册中心 统一管理所有Prompt 集中管理
🔥 Automated Prompt Testing 自动化Prompt测试 每次改动自动测试 质量保证

✅ 解决:系统持续变强,形成正向循环


11. 安全治理(AI系统上线必备)

目标:避免被攻击、避免泄露、避免乱用

是什么:企业级安全治理体系

解决什么:企业可控、可审计、可合规

关键技术

技术 一句话说清楚 解决什么痛点 什么时候用
Prompt Injection 提示注入防护 用户诱导模型越权 输入过滤、系统指令隔离
Jailbreak 越狱防护 绕过安全限制 对抗性测试、安全边界
PII Detection 敏感信息检测 隐私泄漏 自动脱敏、合规检查
RBAC 权限控制 越权访问 企业多租户、数据隔离
Audit Log 审计日志 追溯 合规审计、问题排查
Sandbox 沙箱隔离 安全执行代码 代码执行、工具调用
Policy / Guardrails 策略规则/输出护栏 输出约束 内容过滤、合规要求
Red Team Testing 红队测试 漏洞发现 安全评估、对抗测试
🔥 Adversarial Robustness 对抗鲁棒性 抵御对抗样本攻击 安全防护
🔥 Model Watermarking 模型水印 追踪模型输出来源 版权保护
🔥 Federated Learning 联邦学习 隐私保护训练 数据隐私

✅ 解决:企业可控、可审计、可合规


12. 最终产品形态(你会做成什么)

目标:技术最终要落地成产品

产品形态 核心能力 典型场景 技术栈
AI Chat 通用助理 问答、写作、代码、解释 LLM + Memory + Streaming
AI Search 答案引擎 从"给链接"升级为"给答案+来源" RAG + Citation + Re-ranking
Copilot 嵌入式助手 IDE/浏览器/办公套件 Function Calling + Context Awareness
KB Bot 企业知识库助手 私有资料问答+报告输出 RAG 2.0/3.0 + GraphRAG
Agent Automation 跨系统自动化 工单、运营、数据分析 Multi-Agent + MCP + Workflow
Multimodal Studio 多模态创作工具 文生图/文生视频/营销素材 VLM + Diffusion + Video Gen
🔥 AI-Native Apps AI原生应用 从零设计的AI应用而非传统应用加AI 全新交互范式
🔥 Agentic Interface 智能体界面 用户不再点按钮而是对话完成任务 对话式交互
🔥 Personalized AI 个性化AI 每个用户有自己的AI助手 个性化定制

✅ 解决:技术落地成可用产品

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐