2026大模型应用技术栈全景图谱
技术演进主线(一张图看懂)
| 能力目标 | 核心技术路线 | 对应章节 | 关键词 |
|---|---|---|---|
| 能回答 | LLM基础 → 强推理 → 长上下文 → 多模态 | 第1类 | CoT、o1、Long Context、VLM |
| 能对齐 | 偏好优化 → 安全约束 → 可控输出 | 第2类 | DPO、Constitutional AI、Guardrails |
| 能查证 | RAG 1.0(能查)→ RAG 2.0(查得准)→ RAG 3.0(查不到会自救) + GraphRAG(关系推理) |
第3-4类 | Embedding、Hybrid Search、Self-RAG、CRAG |
| 能执行 | Tool Use → Function Calling → 结构化调用 | 第5类 | JSON Schema、Retry、Tool Selection |
| 标准化生态 | MCP协议(AI界的HTTP/USB) | 第6类 | MCP Server/Client、Connector、Tool Discovery |
| 能协作 | Agent 1.0(单Agent)→ Agent 2.0(Multi-Agent)→ Agent 3.0(工作流) + Skills(SOP模块化) |
第7-8类 | ReAct、Multi-Agent、LangGraph、Claude Skills |
| 能上线 | 推理优化 → 部署加速 → 成本控制 | 第9类 | vLLM、Quantization、KV Cache、Streaming |
| 能持续变强 | Eval 1.0(离线指标)→ Eval 2.0(LLM-as-a-Judge)→ Eval 3.0(Tracing+回归) + 安全治理 |
第10-11类 | RAGAS、LLM-as-a-Judge、Tracing、Prompt Injection |
| 最终产品 | AI Chat / AI Search / Copilot / KB Bot / Agent Automation | 第12类 | 技术落地成可用产品 |
1. 模型能力升级(Model Frontier)
目标:让模型更强、更长、更省、更会推理
1.1 强推理模型(Reasoning)
是什么:让模型在回答前"想一想",而不是直接输出
解决什么:数学/逻辑/代码推理更稳、更少乱编
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| CoT(Chain-of-Thought) | 把一条思路写清楚 | 推理过程看不见 | 做数学题、逻辑推理 |
| ToT(Tree of Thought) | 同时试很多条思路 | 一条路走不通就卡住 | 下棋、复杂决策 |
| Self-Consistency | 多跑几次投票 | 一次结果不稳定 | 关键决策、要求高准确率 |
| Verifier / Critic | 专门负责检查对错 | 答案对不对没人管 | 代码验证、答案审核 |
| 🔥 o1-style Reasoning | 长推理+自检 | 复杂问题想不透 | 超难推理任务 |
| 🔥 Process Reward Model (PRM) | 奖励过程走得对 | 只看结果不看过程 | 评估推理质量 |
| 🔥 MCTS for LLM | 用搜索树找最优路径 | 不知道哪条路最好 | 策略优化、路径搜索 |
✅ 解决:复杂逻辑题、数学题、代码推理准确率大幅提升
1.2 长上下文 & 长文理解
是什么:一次能读超长文档/长代码/长对话
解决什么:传统模型只能读几千字,现在能读几十万字
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Long Context | 一次能读很长的文档 | 文档太长读不完 | 读整本书、整个代码库 |
| Sparse Attention | 只看重点不看全部 | 长文档算太慢 | 超长文本、降低计算量 |
| KV Cache优化 | 记住前面说过的话 | 重复计算浪费时间 | 多轮对话、长文本生成 |
| Context Compression | 把长文压缩成重点 | 太长了塞不进去 | 超长文档摘要 |
| 🔥 Infinite Context | 理论上无限长 | 还是有长度限制 | 极限长文档 |
| 🔥 Context Caching | 重复的部分不重复算钱 | 重复内容重复计费太贵 | 省钱、降成本 |
| 🔥 Needle in Haystack Test | 大海捞针测试 | 不知道长文理解能力行不行 | 测试模型能力 |
✅ 解决:一次读完整本书、整个代码仓库、长对话历史
1.3 多模态(图像/语音/视频)
是什么:模型能处理图片/语音/视频等多种输入输出
解决什么:让AI"看得懂、听得懂、画得出"
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| VLM(视觉语言模型) | 看图问答 | 图文理解 | 截图理解、图表分析 |
| 文生图(Diffusion) | 生成图像 | 创意设计 | 海报、插画、UI素材 |
| ASR/TTS | 语音识别/合成 | 语音交互 | 会议转写、语音助手 |
| 视频理解/生成 | 视频处理 | 视频内容理解与创作 | 视频总结、视频生成 |
| 🔥 Any-to-Any Models | 任意模态互转 | 文本/图像/语音/视频自由转换 | 多模态创作 |
| 🔥 Real-time Multimodal | 实时多模态 | 低延迟的多模态交互 | 实时对话 |
| 🔥 Multimodal RAG | 多模态RAG | 检索图片/视频/音频 | 多媒体知识库 |
✅ 解决:跨模态理解与生成,AI不再只会"说"
1.4 成本效率路线(高性价比)
是什么:用更低成本获得更强能力
解决什么:推理更快、部署更省钱
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| MoE(混合专家) | 稀疏激活 | 更低成本扩展能力 | 大规模推理服务 |
| Quantization(量化) | INT4/FP8 | 显存占用减少 | 端侧部署、成本优化 |
| Distillation(蒸馏) | 知识迁移 | 大模型能力迁移给小模型 | 边缘部署 |
| Speculative Decoding | 投机解码 | 加速输出 | 低延迟要求 |
| 🔥 1-bit LLMs | 1比特大模型 | 极致压缩 | 极低资源环境 |
| 🔥 Mixture of Depths (MoD) | 深度混合 | 动态调整计算深度 | 自适应计算 |
| 🔥 Prompt Caching | Prompt缓存 | 重复Prompt不重复计费 | 成本优化 |
✅ 解决:性价比优化,让更多场景用得起大模型
2. 对齐与"可控输出"(Alignment & Control)
目标:让模型更听话、更安全、更可控
是什么:通过训练让模型输出符合人类偏好、避免有害内容
解决什么:减少幻觉、避免越狱、企业可用
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| DPO / IPO / ORPO / KTO | 偏好优化新流派 | 比RLHF更简单 | 对齐训练、偏好学习 |
| RLAIF | AI反馈对齐 | 降低人工成本 | 自动化对齐、规模化训练 |
| Constitutional AI | 规则约束 | 模型价值观一致 | 安全边界、伦理约束 |
| Guardrails | 输出护栏 | 实时约束输出 | 内容过滤、格式约束 |
| Structured Output | 结构化输出约束 | 保证格式 | JSON输出、API调用 |
| 🔥 RLAIF | AI反馈强化学习 | 完全自动化对齐 | 规模化对齐 |
| 🔥 Weak-to-Strong Generalization | 弱到强泛化 | 用弱模型监督强模型 | 超级对齐 |
| 🔥 Scalable Oversight | 可扩展监督 | 解决超人类能力的对齐问题 | 未来AI对齐 |
✅ 解决:模型更可控、更安全、更符合企业要求
3. 知识增强技术栈(RAG 1.0 → 2.0 → 3.0)
目标:让模型基于证据回答,并能查来源
演进逻辑:RAG 1.0 能查 → RAG 2.0 查得准 → RAG 3.0 查不到会自救
3.1 RAG 1.0:能查(基础检索增强)
是什么:检索增强生成,让AI知道你的私有资料
解决什么:模型不知道私有资料/最新资料,容易胡编
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Chunking | 把长文档切成小块 | 长文档没法直接搜 | 处理PDF、Word、Markdown |
| Embedding | 把文字变成数字向量 | 计算机看不懂文字 | 所有文本都要先转向量 |
| Vector DB | 存向量、快速搜 | 向量太多搜不过来 | 用Milvus/FAISS/Pinecone |
| Hybrid Search | 关键词+语义一起搜 | 只用一种搜不全 | BM25+向量双管齐下 |
| Re-ranking | 把最相关的排前面 | 搜出来一堆但不准 | 用Cross Encoder精排 |
| 🔥 Contextual Embedding | 带上下文一起向量化 | 单独的chunk缺上下文 | 提高检索准确率 |
| 🔥 Matryoshka Embedding | 套娃式多粒度向量 | 向量维度固定不灵活 | 需要不同粒度的向量 |
✅ 解决:让AI知道你的资料、减少胡编、可引用溯源
3.2 RAG 2.0:查得准(检索优化)
是什么:优化检索策略,提高命中率和信息完整性
解决什么:用户问题模糊、检索不准、信息不全
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Query Rewrite | 查询改写 | 用户问题模糊 | 口语化问题→可检索表达 |
| Multi-query | 多路检索 | 一问多搜提高召回 | 同一问题生成3-5个变体 |
| HyDE | 假设性文档嵌入 | 抽象问题难搜 | 先生成"假答案"再检索 |
| Contextual Retrieval | 上下文检索 | chunk孤立问题 | 每个chunk带文档上下文 |
| Parent-Child Chunking | 父子块检索 | 多粒度检索 | 小块检索+大块返回 |
| Late Chunking | 延迟切分 | 保留更多上下文 | 先向量化再切分 |
| Multi-Vector Retrieval | 多向量检索 | 一个chunk多个向量 | 标题+正文分别向量化 |
| 🔥 Semantic Chunking | 语义切分 | 按语义边界切分而非固定长度 | 智能文档切分 |
| 🔥 Proposition-based Retrieval | 命题检索 | 把文档拆成原子命题再检索 | 精细化检索 |
| 🔥 Rewrite-Retrieve-Read | 改写-检索-阅读 | 三段式优化流程 | 端到端优化 |
✅ 解决:命中率更高、信息更完整、召回更全面
3.3 RAG 3.0:查不到会自救(Agentic RAG)
是什么:检索失败能自修复、能多轮探索证据、能判断是否需要检索
解决什么:检索失败时不是直接放弃,而是自动调整策略
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Self-RAG | 自主判断是否需要检索 | 不是所有问题都需要检索 | 模型自己决定何时检索 |
| Corrective RAG (CRAG) | 纠正性RAG | 检索失败自动调整策略 | 检索结果不相关→改写查询→重新检索 |
| RAG Fusion | RAG融合 | 多个检索器结果融合 | 向量+BM25+GraphRAG结果融合 |
| Agentic RAG | 智能体RAG | RAG+Agent混合 | 多轮探索、工具调用、自主决策 |
| RAPTOR | 递归抽象处理 | 树状文档组织 | 文档层级摘要+多层检索 |
| LongRAG | 长文本RAG | 超长文档处理 | 整本书、完整代码仓库 |
| 🔥 Adaptive RAG | 自适应RAG | 根据问题复杂度动态选择检索策略 | 智能策略选择 |
| 🔥 Iterative RAG | 迭代式RAG | 多轮检索+逐步细化答案 | 复杂问题分步解决 |
| 🔥 RAG with Reflection | 带反思的RAG | 检索后判断证据质量再决定是否重新检索 | 质量自检 |
✅ 解决:检索更智能、能自修复、能多轮探索证据
4. GraphRAG & 知识图谱增强(关系推理爆发)
目标:回答"关系类 / 多跳推理类"问题
是什么:把知识抽成"实体-关系-事件"的图,再检索子图
解决什么:跨文档推理、因果链、组织关系、流程关系
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| GraphRAG | 图谱检索 | 多跳推理、跨文档关系 | 人物关系、组织架构、因果链 |
| Hierarchical GraphRAG | 分层图谱RAG | 多层级关系推理 | 公司-部门-员工层级 |
| Temporal GraphRAG | 时间图谱RAG | 考虑时间维度 | 事件演进、历史关系 |
| Dynamic Knowledge Graph | 动态知识图谱 | 实时更新的图谱 | 新闻事件、实时业务 |
| Multi-hop QA | 多跳问答 | 跨文档推理 | A影响B,B关联C |
| NER + Relation Extraction | 实体识别+关系抽取 | 从文本构建图谱 | 自动抽取实体关系 |
| 🔥 Community Detection in GraphRAG | 社区发现 | 自动识别文档中的主题社区 | 主题聚类 |
| 🔥 Graph-based Re-ranking | 基于图的重排序 | 利用图结构优化检索结果 | 关系增强排序 |
| 🔥 Hybrid Graph-Vector RAG | 图谱+向量混合检索 | 兼顾关系和语义 | 综合检索 |
✅ 解决:复杂关系推理、多跳问答、因果链分析
5. 工具调用(Tool Use / Function Calling)
目标:让模型从"会说"变成"会做"
是什么:让模型能调用外部工具/API
解决什么:模型不再只会"说",能真的执行任务
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Function Calling | 结构化函数调用 | 参数稳定输出 | 调用天气API、查库存、发邮件 |
| JSON Schema | 参数约束 | 解析不稳定 | 约束输出格式、参数类型 |
| Retry / Idempotency | 重试策略、幂等性 | 稳定执行 | 网络失败重试、避免重复执行 |
| Tool Selection | 工具选择 | 从多个工具中选择合适的 | 根据任务自动选工具 |
| Parallel Tool Calling | 并行工具调用 | 同时调用多个工具 | 同时查天气+查日历 |
| 🔥 Streaming Tool Calls | 流式工具调用 | 边生成边调用工具 | 实时响应 |
| 🔥 Tool Calling with Validation | 带验证的工具调用 | 调用前验证参数合法性 | 安全执行 |
| 🔥 Composite Tools | 复合工具 | 多个工具组合成新工具 | 工具编排 |
✅ 解决:结构化调用外部API,稳定执行任务
6. MCP协议层(标准化生态基础设施)
目标:让工具接入标准化(AI界的HTTP/USB)
为什么MCP是独立一层?
就像HTTP是Web的标准协议、USB是硬件的标准接口,MCP是AI接入外部世界的标准协议。
它不是"一个工具",而是"工具接入的标准"。
6.1 MCP是什么
是什么:Model Context Protocol,连接外部工具/数据源的标准协议
解决什么:工具接入标准化,不用每次手搓接口
类比理解:
- HTTP之于Web:统一了网页访问标准
- USB之于硬件:统一了设备接口标准
- MCP之于AI:统一了工具接入标准
6.2 MCP核心能力
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| MCP Server / MCP Client | 标准化接口 | 工具提供方和使用方解耦 | 任何工具都能接入 |
| Connector | 企业连接器 | 接入企业系统 | 数据库/文件系统/内部API |
| Tool Discovery | 工具发现 | 自动找到合适工具 | 模型自动发现可用工具 |
| Tool Composition | 工具组合 | 多个工具协同 | 查数据库→生成图表→发邮件 |
| Context Sharing | 上下文共享 | 工具间共享状态 | 多个工具共享用户信息 |
| 🔥 MCP Gateway | MCP网关 | 统一管理所有MCP服务 | 集中管理 |
| 🔥 MCP Marketplace | MCP市场 | 工具生态市场 | 工具共享 |
| 🔥 MCP Security Layer | MCP安全层 | 工具调用权限控制 | 安全管理 |
✅ 解决:工具接入标准化,生态快速扩展
6.3 MCP生态
典型应用:
- 企业系统接入:数据库、文件系统、内部API
- 第三方服务接入:天气、地图、支付、物流
- 开发工具接入:IDE、Git、CI/CD
- 数据源接入:向量库、知识图谱、业务数据库
7. Agent系统(从聊天到"自动化执行")
目标:任务闭环(拆解→执行→检查→修复)
演进逻辑:Agent 1.0 单Agent闭环 → Agent 2.0 Multi-Agent协作 → Agent 3.0 工作流工程化
7.1 Agent 1.0:单Agent闭环
是什么:能拆任务→规划步骤→调用工具→执行→检查结果的系统
解决什么:复杂任务能跑通,而不是一次问答结束
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| ReAct | 边想边做 | 持续观察环境并行动 | 动态任务、需要实时反馈 |
| Plan-and-Execute | 先计划后执行 | 复杂任务更可控 | 多步骤任务、需要全局规划 |
| Reflection | 反思纠错 | 自动发现错误并修复 | 代码调试、文档审校 |
| Router | 任务路由 | 不同任务用不同能力 | 根据问题类型选择专家Agent |
| Memory | 记忆 | 跨轮对话状态保持 | 长对话、个性化助手 |
| 🔥 Tree-based Planning | 树状规划 | 探索多个执行路径 | 复杂决策 |
| 🔥 Hierarchical Agent | 层级Agent | 大任务拆小任务递归执行 | 任务分解 |
| 🔥 Human-in-the-Loop | 人在回路Agent | 关键决策人工确认 | 高风险决策 |
✅ 解决:复杂任务能跑通,能自纠错,能多步执行
7.2 Agent 2.0:Multi-Agent协作
是什么:多个Agent分工协作,像团队一样工作
解决什么:任务分工更稳、更像团队
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| AutoGen / CrewAI | 多智能体框架 | 快速搭建多Agent系统 | 团队协作、角色分工 |
| Supervisor Agent | 主管Agent | 协调其他Agent | 任务分配、进度监控 |
| Worker Agents | 执行者Agent | 完成具体任务 | 专业分工、并行执行 |
| Debate / Critic | 争论与审校 | 多Agent互相检查 | 代码审查、方案评审 |
| A2A (Agent-to-Agent) | Agent间通信协议 | Agent间信息传递 | 协作任务、状态同步 |
| 🔥 Dynamic Team Formation | 动态团队组建 | 根据任务自动组建Agent团队 | 灵活组队 |
| 🔥 Agent Marketplace | Agent市场 | 共享和复用Agent能力 | 能力共享 |
| 🔥 Swarm Intelligence | 群体智能 | 大量简单Agent协作完成复杂任务 | 分布式协作 |
✅ 解决:复杂任务分工协作,质量更高
7.3 Agent 3.0:工作流工程化(LangGraph / Workflow)
是什么:把Agent变成可控、可回溯的工作流系统
解决什么:从Demo变成可控系统
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| LangChain | 快速拼装 | 适合PoC | 快速验证想法、原型开发 |
| LangGraph | 状态机/可回溯 | 复杂流程可控 | 生产环境、需要调试和回溯 |
| Agentic Workflow | 可循环流程 | 能多轮迭代 | 需要反复优化的任务 |
| DSPy | 声明式编程 | 自动优化Prompt和流程 | 自动调优、减少手工调参 |
| 🔥 Agent Observability | Agent可观测性 | 追踪Agent每一步决策 | 调试分析 |
| 🔥 Agent Versioning | Agent版本管理 | 管理Agent能力迭代 | 版本控制 |
| 🔥 Agent Testing Framework | Agent测试框架 | 自动化测试Agent行为 | 质量保证 |
✅ 解决:Agent工程化,可控、可回溯、可循环
8. Skills / SOP模块化(流程沉淀)
目标:把"经验"变成"可复用技能包"
是什么:把标准流程封装成可复用的技能模块
解决什么:重复工作自动化,团队共享最佳实践
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Claude Skills | 自动触发/渐进加载 | 省token | 写报告、写PPT、写测试 |
| Workflow Skills | 企业SOP | 标准流程封装 | 客服话术、审批流程、数据分析 |
| Skill Versioning | 版本管理 | 持续优化 | 技能迭代、A/B测试 |
| Skill Composition | 技能组合 | 多个技能协同 | 复杂任务拆解成多个技能 |
| Skill Marketplace | 技能市场 | 团队共享 | 企业内部技能库 |
| 🔥 Adaptive Skills | 自适应技能 | 根据用户反馈自动优化 | 持续改进 |
| 🔥 Skill Chaining | 技能链 | 多个技能自动串联执行 | 流程自动化 |
| 🔥 Skill Analytics | 技能分析 | 追踪技能使用效果 | 效果评估 |
✅ 解决:重复工作自动化,团队共享最佳实践
9. 推理部署 & 成本工程(Inference Stack)
目标:能上线、能抗并发、能省钱
是什么:高性能推理引擎和优化技术
解决什么:低延迟、高吞吐、可规模化服务
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| vLLM | 高吞吐推理框架 | 并发效率最强 | API服务、高并发场景 |
| TensorRT-LLM | GPU加速引擎 | 极限性能 | 低延迟要求、GPU优化 |
| llama.cpp / Ollama | 本地端侧部署 | 离线可用 | 本地运行、隐私保护 |
| Continuous Batching | 连续批处理 | 动态批处理 | 请求到达时间不一致 |
| PagedAttention | 分页注意力 | vLLM核心优化 | 显存优化、长上下文 |
| Streaming | 流式输出 | 用户体验更好 | 实时反馈、降低感知延迟 |
| KV Cache优化 | 缓存优化 | 生成加速 | 多轮对话、长文本生成 |
| Speculative Decoding | 投机解码 | 加速输出 | 低延迟要求 |
| 🔥 SGLang | 结构化生成语言 | 优化结构化输出推理 | 结构化生成 |
| 🔥 MLC-LLM | 机器学习编译器 | 跨平台部署优化 | 多平台部署 |
| 🔥 Medusa Decoding | 多头投机解码 | 更激进的加速策略 | 极致加速 |
✅ 解决:低延迟、高吞吐、可规模化服务
10. LLMOps & AI系统生产化(从Demo到生产)
目标:能度量、能优化、能回归、能持续迭代
为什么需要LLMOps?
AI系统不是"上线就完事",而是"上线才开始"。需要持续监控、评测、优化、迭代。
演进逻辑:Eval 1.0 离线指标 → Eval 2.0 LLM-as-a-Judge → Eval 3.0 Tracing + 回归体系
10.1 Eval 1.0:离线指标评测
是什么:基于固定测试集的传统评测
解决什么:系统可度量、可优化、可持续迭代
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Offline Eval | 离线评测 | 回归可控 | 发版前测试、基准测试 |
| RAGAS | RAG评测框架 | 自动化RAG评测 | Faithfulness/Relevance/Context Recall |
| A/B Test | 对照实验 | 方案选择 | Prompt对比、模型对比 |
| Regression Test | 回归测试 | 防止功能退化 | 每次改动后自动测试 |
✅ 解决:基础评测能力,但依赖人工标注
10.2 Eval 2.0:LLM-as-a-Judge(模型当评委)
是什么:用大模型自动评测大模型输出
解决什么:降低人工评测成本,提高评测效率
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| LLM-as-a-Judge | 模型当评委 | 自动评测 | 答案质量评分、风格一致性检查 |
| Online Eval | 在线评测 | 真实效果验证 | A/B测试、用户反馈 |
✅ 解决:自动化评测,但需要验证评委模型的可靠性
10.3 Eval 3.0:Tracing + 回归体系(完整LLMOps)
是什么:全链路追踪 + 持续优化 + 回归测试的完整体系
解决什么:生产环境可观测、可追溯、可持续优化
关键技术(可观测性):
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Tracing | 全链路追踪 | 每步哪里错 | LangSmith/LangFuse/Arize |
| Logging | 日志记录 | 详细记录每次调用 | 调试、审计 |
| Metrics | 指标监控 | 延迟/成本/成功率 | 实时监控、告警 |
| Prompt Versioning | Prompt版本管理 | Prompt迭代可追溯 | Prompt优化、回滚 |
| Cost Tracking | 成本追踪 | Token成本监控 | 成本优化、预算控制 |
| User Feedback Loop | 用户反馈闭环 | 收集真实反馈 | 持续优化、问题发现 |
关键技术(持续优化):
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Prompt Optimization | Prompt优化 | 自动优化Prompt | DSPy/PromptPerfect |
| Fine-tuning Pipeline | 微调流水线 | 基于生产数据微调 | 持续学习、领域适配 |
| Data Flywheel | 数据飞轮 | 用户数据→优化→更好体验→更多用户 | 产品增长 |
| Shadow Deployment | 影子部署 | 新版本灰度测试 | 风险控制、逐步上线 |
| Canary Release | 金丝雀发布 | 小流量验证 | 新功能验证 |
| 🔥 LLM Observability Platforms | LLM可观测平台 | 统一可观测 | LangSmith/Arize/Helicone |
| 🔥 Prompt Registry | Prompt注册中心 | 统一管理所有Prompt | 集中管理 |
| 🔥 Automated Prompt Testing | 自动化Prompt测试 | 每次改动自动测试 | 质量保证 |
✅ 解决:系统持续变强,形成正向循环
11. 安全治理(AI系统上线必备)
目标:避免被攻击、避免泄露、避免乱用
是什么:企业级安全治理体系
解决什么:企业可控、可审计、可合规
关键技术:
| 技术 | 一句话说清楚 | 解决什么痛点 | 什么时候用 |
|---|---|---|---|
| Prompt Injection | 提示注入防护 | 用户诱导模型越权 | 输入过滤、系统指令隔离 |
| Jailbreak | 越狱防护 | 绕过安全限制 | 对抗性测试、安全边界 |
| PII Detection | 敏感信息检测 | 隐私泄漏 | 自动脱敏、合规检查 |
| RBAC | 权限控制 | 越权访问 | 企业多租户、数据隔离 |
| Audit Log | 审计日志 | 追溯 | 合规审计、问题排查 |
| Sandbox | 沙箱隔离 | 安全执行代码 | 代码执行、工具调用 |
| Policy / Guardrails | 策略规则/输出护栏 | 输出约束 | 内容过滤、合规要求 |
| Red Team Testing | 红队测试 | 漏洞发现 | 安全评估、对抗测试 |
| 🔥 Adversarial Robustness | 对抗鲁棒性 | 抵御对抗样本攻击 | 安全防护 |
| 🔥 Model Watermarking | 模型水印 | 追踪模型输出来源 | 版权保护 |
| 🔥 Federated Learning | 联邦学习 | 隐私保护训练 | 数据隐私 |
✅ 解决:企业可控、可审计、可合规
12. 最终产品形态(你会做成什么)
目标:技术最终要落地成产品
| 产品形态 | 核心能力 | 典型场景 | 技术栈 |
|---|---|---|---|
| AI Chat | 通用助理 | 问答、写作、代码、解释 | LLM + Memory + Streaming |
| AI Search | 答案引擎 | 从"给链接"升级为"给答案+来源" | RAG + Citation + Re-ranking |
| Copilot | 嵌入式助手 | IDE/浏览器/办公套件 | Function Calling + Context Awareness |
| KB Bot | 企业知识库助手 | 私有资料问答+报告输出 | RAG 2.0/3.0 + GraphRAG |
| Agent Automation | 跨系统自动化 | 工单、运营、数据分析 | Multi-Agent + MCP + Workflow |
| Multimodal Studio | 多模态创作工具 | 文生图/文生视频/营销素材 | VLM + Diffusion + Video Gen |
| 🔥 AI-Native Apps | AI原生应用 | 从零设计的AI应用而非传统应用加AI | 全新交互范式 |
| 🔥 Agentic Interface | 智能体界面 | 用户不再点按钮而是对话完成任务 | 对话式交互 |
| 🔥 Personalized AI | 个性化AI | 每个用户有自己的AI助手 | 个性化定制 |
✅ 解决:技术落地成可用产品
更多推荐

所有评论(0)