AI 智能体已经在企业的众多场景中落地,比如:对话与问答、报告生成、内容审核、流程自动化、可视化数据分析、AI 编程等。

当你向智能客服提问时,在你点击发送按钮之后,AI 智能体应用架构是如何生成并回复你的问题的?这篇文章将通过一张核心架构设计全流程图,带你深入了解 AI 智能体应用架构设计在接收到用户请求后是如何一步步处理的。这不仅是对 AI 智能体技术的揭秘,也是对 AI 智能体应用架构设计落地的深入探讨。

下文我们详细剖析之。

一、AI 智能体应用架构请求全流程设计

AI 智能体应用架构接收到用户的请求(Prompt),到回复用户结果(Response),会经历7个关键模块:API 网关层、AI 智能体业务逻辑层、AI 网关层、MCP 网关层、模型层、向量知识库层、MCP Server 工具层,如下图所示(值得好好看和收藏⬇):

下面我们对 AI 智能体应用架构设计的请求全流程进行详细解读。

二、AI 智能体架构请求全流程解读

1、用户端:用户请求的入口

在用户界面上,用户输入一句话(Prompt):比如:“这个订单可以退款吗?”,这个请求会发送给 AI 智能体架构进行处理,并且这个请求带了如下4个关键参数:

  • Prompt:用户请求内容;
  • UID:用户唯一 ID;
  • SessionID:用户会话 ID;
  • TranceID:用户一次请求跟踪 ID。

2、API 网关层:管理 API 请求的中心枢纽

API 网关层像 AI 智能体系统的门卫,不仅接收请求,还检查参数完整性和权限,然后把请求路由转发给 AI 智能体业务逻辑层,并记录日志。

3、AI 智能体业务逻辑层:业务逻辑的编排引擎

AI 智能体业务逻辑层负责处理和协调具体业务需求并与下游多个模块进行交互。

第一步,需要理解用户在说什么,于是我们把 Prompt 向量化请求交给 AI 网关层。

4、AI 网关层:模型的统一代理入口

在企业落地 AI 智能体应用的过程中,会使用到很多模型:大模型、小模型,这么多模型异构性、模型上下线、高可用、Failover、动态切换等操作需要对 AI 智能体业务逻辑层透明,因此就需要 AI 网关层统一的代理。

AI 网关层接收到用户的 Prompt 向量化请求后,自动选择合适的 Embedding 模型,并把请求提交给模型层。

5、模型层:多个模型聚合层

模型层主要有三类模型:大语言模型、Embedding 模型、Reranker 模型。大语言模型负责推理,Embedding 模型负责向量化,Reranker 模型负责对一阶段检索的 TopK Chunks 进行重排。

AI 智能体理解你的话,首先要把你的话转成机器能懂的语义向量。

这一步通过 Embedding 嵌入模型实现,它把你的输入转换成一个高维向量,比如:1536维或768的数组。

这个向量是整个流程的关键,后续的知识检索依赖它。

向量结果返回给 AI 网关层,AI 网关层继续返回给 AI 智能体业务逻辑层。AI 智能体业务逻辑层继续进行相似度检索。

6、MCP 网关层:数据和工具的代理层

MCP 协议虽然标准了 AI 智能体和工具的通信,但是依然有很多增量的 MCP Server 以及大量存量的企业级业务 API,还有海量的数据库,这么多数据工具需要有一个统一管理的服务,用于高可用、统一路由、协议转换、访问鉴权等工作,那么这就是 MCP 网关层存在的原因。

AI 智能体业务逻辑层请求 MCP 网关层继续向量相似度检索,MCP 网关层适配后自动请求下游的向量知识库层。

7、向量知识库层:知识统一存储

从 MCP 网关层得到语义向量后,下一步是进入向量知识库库进行相似度搜索。

这就像给你一本书的气味,然后向量知识库帮你找出最相似的书。

结果是找出最相关的几个知识片段(Chunk),可能来自知识库、旧文档、API说明或操作手册。

但只有“相似”还不够,我们还需要更精确的排序,这就是下一步要做的 Reranker 重排。

在 Reranker 重排之前,向量知识库把 TopK Chunks 返回给 MCP 网关层,MCP 网关层把 TopK Chunks 继续返回给 AI 智能体业务逻辑层。

8、模型层:Reranker 重排

AI 智能体业务逻辑层把 TopK Chunks 请求 AI 网关层,AI 网关层适配后自动请求模型层的 Reranker 模型进行二次的排序。

在挑选出的最相关的 TopK Chunk 中,可能还是会有一些看起来相关但实际上没什么用的信息。为了解决这个问题,AI 智能体会用一个重排模型来重新评估这些搜索结果。

这个过程就像是编辑在筛选一堆材料,找出哪些能更准确地回答用户的问题。

经过重排,通常会选出3到5条最相关的 Chunks,这些知识片段将被整合进最终的提示词中,和用户的输入一起作为大语言模型(LLM)的输入。

重排后的 TopK Chunks 再次返回给 AI 网关层和 AI 智能体业务逻辑层。

9、第一次调用 LLM:你需要我回答还是去执行?

AI 智能体业务逻辑层现在掌握了:

  • 用户的问题;
  • 相关的知识;
  • 可用工具的信息;

这三样东西被组合成一个完整的提示词(Prompt),然后输入到大语言模型中,比如:DeepSeek R1 或 Qwen 3等,进行初次处理。

大模型会根据上下文来决定:是直接回答问题,还是需要调用某个工具?

如果问题很简单(比如:“AI 大模型是什么?”),大模型会直接生成答案;

如果问题需要查询最新信息或执行某些操作(比如:“帮我看看客户的合同状态。”),大模型会生成一个工具调用指令,指导 AI 智能体业务逻辑层调用正确的工具并输入必要的参数。

在这个阶段,AI 智能体就像是个决策者,决定是自己直接回答还是需要采取行动。

10、MCP Server 工具层:调用工具动手干活

一旦大模型选择调用工具,AI 智能体业务逻辑层调用 MCP 网关层来激活已注册的 MCP Server 工具集去执行任务:

  • 查询系统(订单接口、商品接口);
  • 启动工作流程;
  • 运行计算;
  • 获取外部 API 信息。

每次工具调用都是一个“可追踪的操作”,它们的调用参数和返回结果都会被记录下来,保证整个过程可以监控和回查。

11、第二次 LLM 调用:结合工具执行结果,给出最终答复

工具调用完成后,AI 智能体业务逻辑层要把工具返回的结果、原始输入和上下文信息再次通过 AI 网关层发送给 LLM。

这样,LLM 就能综合这些信息,生成一段完整、清晰、易于理解的自然语言回答。

这就是你作为用户看到的那段“智能、逻辑性强、理解上下文”的回复:其实它背后经历了两轮推理、一次工具调用和多层信息整合。

12、返回与响应:答案落地,体验闭环

生成的答案首先送回 AI 智能体业务逻辑层,然后由 API 网关层服务传递给用户。与此同时,AI 智能体应用架构会将整个请求过程的日志:包括从接收、业务处理、AI 网关、MCP 网关、向量化处理、检索、重排、工具调用到 LLM 生成答案的所有步骤都记录下来,并存储到日志平台中,不仅帮助开发者进行调试和问题定位,也为产品的分析和质量改进提供了数据支持。

总之,AI 智能体应用架构中的请求全流程设计至关重要,每个 AI 大模型应用新架构师都需要掌握,AI 智能体处理请求的全过程总结如下:

  1. 用户通过界面发送请求,附带关键参数。
  2. API 网关层接收并验证请求,然后转发至 AI 智能体业务逻辑层。
  3. AI 智能体业务逻辑层处理请求,并将其向量化。
  4. AI 网关层选择合适的模型进行向量化处理。
  5. 模型层 负责向量化、推理和重排。
  6. MCP 网关层管理数据和工具代理,进行相似度检索。
  7. 向量知识库层统一存储知识,进行相似度搜索。
  8. 模型层的重排模型对检索结果进行精确排序。
  9. AI 智能体业务逻辑层将排序后的信息和用户输入一起提交给 LLM 进行初次处理。
  10. 根据 LLM 的判断,可能直接回答或调用 MCP Server 工具层。
  11. 工具层执行任务后,将结果返回给 AI 智能体业务逻辑层。
  12. AI 智能体业务逻辑层将工具结果和上下文再次提交给 LLM 生成最终回答。
  13. API 网关将最终答案返回给用户,并将全过程日志记录到日志平台。

三、如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐