给MCP加上RAG，工具准确率提升200%，起飞～

同时课程详细介绍了。

黑客Zion

569人浏览 · 2025-08-30 21:22:08

黑客Zion · 2025-08-30 21:22:08 发布

大型语言模型在使用大量外部工具时面临提示膨胀和选择复杂性问题。RAG-MCP框架通过检索增强生成技术解决这一问题，将工具描述存储在外部向量索引中，动态检索与任务最相关的工具，而非一次性提供所有工具。这种方法减少提示大小，降低LLM认知负担，提高工具选择准确性和任务成功率，同时保持资源效率和多轮对话鲁棒性。

大型语言模型（LLMs）在有效利用越来越多的外部工具（如模型上下文协议（MCP）所定义的工具）方面存在困难，这是由于提示膨胀和选择复杂性造成的。因此引入了RAG-MCP，这是一个检索增强生成框架，通过卸载工具发现来克服这一挑战。

论文地址：https://arxiv.org/pdf/2505.03275

提示膨胀与 MCP 压力测试

提示膨胀问题：随着可用的MCP（Model Context Protocol）服务器数量增加，将所有工具描述包含在单个提示中会导致提示过长，消耗大量token，并降低模型区分和回忆正确工具的能力。这种现象类似于“针在草堆中”（Needle-in-a-Haystack, NIAH）测试，即在长上下文中检索关键信息的能力会随着上下文长度增加而显著下降。
MCP压力测试设计：为了量化工具选择能力随工具池大小的变化，作者设计了一个MCP压力测试。测试中，候选MCP服务器的数量从1增加到11100，每次试验中随机选择一个“真实”MCP（唯一能满足任务需求的工具）和若干干扰项（distractors）。模型需要从这些候选中选择正确的MCP并执行任务。通过改变候选工具的数量和位置，测试模型在不同工具池规模下的选择准确性和任务成功率。

RAG-MCP 框架

框架设计：RAG-MCP框架通过检索增强生成（RAG）技术解决提示膨胀问题。它不将所有工具描述一次性提供给LLM，而是将工具描述存储在外部向量索引中，并在查询时动态检索与用户任务最相关的工具描述。
工作流程：

检索（Retrieval）：使用轻量级LLM（如Qwen）对用户任务描述进行编码，并在MCP索引中执行语义搜索，返回与任务最相似的前k个候选工具。
验证（Validation）：对每个检索到的MCP，生成少量示例查询并测试其响应，以确保其基本兼容性（可选步骤）。
调用（Invocation）：仅将最佳MCP的描述（包括工具使用参数）注入LLM提示中，LLM随后通过函数调用接口执行任务。

框架优势：

减少提示大小：避免上下文窗口过载，即使工具库很大也能保持高效。
降低认知负担：LLM无需筛选数百个干扰工具，从而提高选择准确性和减少幻觉（hallucinations）。
资源效率：与传统MCP客户端相比，RAG-MCP仅激活选定的MCP，降低了启动成本，并支持任意大小的工具集，而无需担心基础设施瓶颈。
多轮对话鲁棒性：在多轮对话中，LLM无需重复包含所有MCP提示，RAG-MCP的检索器可以动态处理工具回忆，释放上下文空间用于任务特定推理。

三步流程图

流程图总结：RAG-MCP的操作流程分为三个核心步骤：

用户任务输入：用户的自然语言任务被编码并提交给检索器。
检索器选择和验证MCP：检索器在MCP索引中搜索，按语义相似性对候选工具进行排序，并通过合成示例测试每个工具的兼容性（可选）。
LLM执行任务：LLM仅接收选定MCP的描述和参数，并通过函数调用接口执行任务。

实验结果

性能提升：RAG-MCP在工具选择的准确性上显著优于基线方法。在基准任务中，RAG-MCP的工具选择准确率达到了43.13%，而基于关键词匹配的“实际匹配”方法和直接提示所有工具的“空白条件”方法的准确率分别为18.20%和13.62%。
提示大小减少：RAG-MCP显著减少了提示中使用的token数量，平均为1084个token，而“空白条件”方法需要2133.84个token。
生成token数量：RAG-MCP的完成token数量略高于“实际匹配”方法（78.14 vs 23.60），但这种增加与更高的准确性和整体任务成功率相关。

https://arxiv.org/pdf/2505.03275

零基础如何高效学习大模型？

你是否懂 AI，是否具备利用大模型去开发应用能力，是否能够对大模型进行调优，将会是决定自己职业前景的重要参数。

为了帮助大家打破壁垒，快速了解大模型核心技术原理，学习相关大模型技术。从原理出发真正入局大模型。在这里我和鲁为民博士系统梳理大模型学习脉络，这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

在这里插入图片描述

【大模型全套视频教程】

教程从当下的市场现状和趋势出发，分析各个岗位人才需求，带你充分了解自身情况，get 到适合自己的 AI 大模型入门学习路线。

从基础的 prompt 工程入手，逐步深入到 Agents，其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。

同时课程详细介绍了AI大模型技能图谱知识树，规划属于你自己的大模型学习路线，并且专门提前收集了大家对大模型常见的疑问，集中解答所有疑惑！

在这里插入图片描述

深耕 AI 领域技术专家带你快速入门大模型

跟着行业技术专家免费学习的机会非常难得，相信跟着学习下来能够对大模型有更加深刻的认知和理解，也能真正利用起大模型，从而“弯道超车”，实现职业跃迁！

【精选AI大模型权威PDF书籍/教程】

精心筛选的经典与前沿并重的电子书和教程合集，包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

在这里插入图片描述

【AI 大模型面试题】

除了 AI 入门课程，我还给大家准备了非常全面的**「AI 大模型面试题」，**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等，帮你在面试大模型工作中更快一步。

【大厂 AI 岗位面经分享（92份）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

【640套 AI 大模型行业研究报告】

在这里插入图片描述

【AI大模型完整版学习路线图（2025版）】

明确学习方向，2025年 AI 要学什么，这一张图就够了！

👇👇点击下方卡片链接免费领取全部内容👇👇

在这里插入图片描述

抓住AI浪潮，重塑职业未来！

科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整，缩减部分传统岗位，同时AI相关技术岗位（尤其是大模型方向）需求激增，已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。

行业趋势洞察：

转型加速： 传统IT岗位面临转型压力，拥抱AI技术成为关键。
人才争夺战： 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师，在头部大厂及明星AI企业中的薪资竞争力显著提升（部分核心岗位可达较高水平）。
门槛提高： “具备AI项目实操经验”正迅速成为简历筛选的重要标准，预计未来1-2年将成为普遍门槛。

与其观望，不如行动！

面对变革，主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验，是抓住时代机遇、实现职业跃迁的关键一步。

在这里插入图片描述

01 为什么分享这份学习资料？

当前，我国在AI大模型领域的高质量人才供给仍显不足，行业亟需更多有志于此的专业力量加入。

因此，我们决定将这份精心整理的AI大模型学习资料，无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴！

我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题，也欢迎交流探讨，我们乐于分享所知。

*02 这份资料的价值在哪里？*

专业背书，系统构建：

本资料由我与鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位，在人工智能领域造诣深厚：
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖（中国人工智能领域重要奖项）。
目前，我有幸与鲁博士共同进行人工智能相关研究。

在这里插入图片描述

内容实用，循序渐进：

资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
包含丰富的视频教程与实战项目案例，强调动手实践能力。
无论你是初探AI领域的新手，还是已有一定技术基础希望深入大模型的学习者，这份资料都能为你提供系统性的学习路径和宝贵的实践参考，助力你提升技术能力，向大模型相关岗位转型发展。

抓住机遇，开启你的AI学习之旅！

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

人月神话今犹在：从布鲁克斯法则到阿里云AI代码生成

2048 AI社区

AI视频画质提升效果实用指南：提升清晰度的完整路径

2048 AI社区

AI应用架构师避坑：企业AI安全合规体系中数据跨境流动的4个合规架构设计

面对4种架构，如何选择？业务场景数据类型推荐架构备选方案中国境内处理重要数据/核心数据重要数据/核心数据架构一（本地化存储+审批）无（法律强制要求，不可替代）跨国AI联合训练（数据敏感，需高隐私保护）个人信息/敏感个人信息架构二（PETs驱动）架构一+架构二混合（本地存储+联邦学习）全球化企业集团内部数据频繁跨境各类数据（含个人信息）架构四（SCCs/BCRs）架构三（国际认证）+架构四混合中小企