推理性能飙升的秘密!小模型+大模型协作,这个“黑科技”你还没用上?
* 提出了Prompt-R1,这是一个新颖的端到端强化学习框架,通过小规模大型语言模型(LLM)与大规模LLM的协作,自动优化提示生成,以提高任务解决的性能。

一、创新点
- 提出了Prompt-R1,这是一个新颖的端到端强化学习框架,通过小规模大型语言模型(LLM)与大规模LLM的协作,自动优化提示生成,以提高任务解决的性能。
- 设计了一种双约束奖励机制,同时优化正确性、生成质量和推理准确性。这种奖励机制确保了整个交互过程中提示的质量和最终答案的准确性。
二、方法
本文提出 Prompt-R1,一种端到端强化学习框架,把小型 LLM 训练成“提示智能体”,与任意大型 LLM 进行多轮对话式协作:小型模型在每一轮先内部思考,再输出一段自然语言提示;大型模型仅作为黑箱环境返回回答,双方历史被完整保留并作为下一轮状态。整个轨迹用“格式-答案”双约束奖励同时监督中间提示是否合规、最终答案是否正确,采用 GRPO 强化学习算法直接对小型模型做 token 级策略更新,无需梯度回传至大型模型。训练完成后,小型模型可即插即用地搭配不同大型模型推理,实现零额外成本、跨任务泛化的自动提示优化。
1.Prompt-R1智能体与大型语言模型多轮协作示例

本图展示了一个小型LLM智能体与大型LLM环境协作解决数学问题的完整多轮对话过程:智能体先对题目进行简要解释并生成首轮提示,大型模型返回初步计算结果;随后智能体根据回应逐步思考、追问和验证,通过“思考-提示-回应”三轮迭代不断修正和确认,最终得出“18”这一正确答案。
2.四种LLM增强范式的全景对照

本图用四格漫画式对比把“人类-LLM直接对话、传统提示工程、监督微调、以及本文Prompt-R1”四种范式放在同一画面:左上角是人类凭经验手写提示,碎片化且低效;右上角是自动提示优化(APO),用算法在句子层面做搜索,仍把LLM当静态黑箱;左下角是监督微调(SFT),需要大量标注且模型参数被锁定;右下角给出Prompt-R1,把小型LLM训练成会“自己思考-自己提问”的智能体,与任意大型LLM进行多轮对话,像教练带选手一样实时引导推理,全程用强化学习端到端更新,既不用改大模型参数,也不依赖人工提示,形成资源节省、即插即用、任务通用的协作闭环。
3.不同视觉编码器在关键图像区域的注意力热图对比

本图展示了在视觉-语言模型(VLM)“幻觉”评估中,采用不同注意力机制(SigLIP、CLIP、ConvNext)对图像块关注度的显著性图(saliency map)对比。三行分别对应三幅测试图像,每行从左到右依次为:原图、SigLIP、CLIP、ConvNext产生的显著性热图。热图颜色越红,表示模型越聚焦于该区域。整体可见,SigLIP的注意力分布最贴近人类对物体关键部分的直觉,显著性集中且与物体轮廓高度重合;CLIP次之,虽能大致定位目标但存在分散亮点;ConvNext则出现明显“飘移”,热图与目标区域错位,甚至聚焦背景。结果直观表明,在减少幻觉、提升视觉-语言对齐方面,SigLIP提供的视觉信号最具判别力,而ConvNext的局部归纳偏差易导致模型关注无关背景,从而生成错误描述。该图从可视化角度验证了论文核心结论:视觉编码器的注意力质量直接决定VLM是否产生幻觉,SigLIP的注意力机制在抑制幻觉方面显著优于传统CLIP与ConvNext。
4.实验

本表在整页尺度上比较了五种视觉-语言模型(BLIVA、InstructBLIP、mPLUG-Owl、LLaVA-1.5、Otter) 在 16 类对象与 9 类关系幻觉评测中的平均精度(mAP@0.5)。它同时给出了“仅替换视觉编码器”的消融结果:原始 CLIP-ViT 作为视觉骨干的模型得分充当基线,而将其直接换成 SigLIP 或 ConvNext 后重新在相同设定下测试。表格显示,无论原模型体量大小,SigLIP 带来的整体 mAP 平均提升约 4–6 个百分点,其中对“计数”“颜色”“材料”等细粒度对象属性的增益最为显著,不少类别从 30 余分跃至 50 分以上;相反,ConvNext 普遍导致 1–3 分下降,尤其在“关系”维度上衰退明显。横向对比可见,经过 SigLIP 增强后,原本排名靠后的 BLIVA 甚至反超未改进的 LLaVA-1.5,说明视觉编码器的选择比模型架构本身更能决定幻觉抑制效果。纵向观察同一骨干在不同模型上的迁移性,SigLIP 的增益稳定出现,而 ConvNext 的负向波动亦高度一致,进一步验证了论文观点:视觉端注意力质量越高,语言模型接收到的伪影越少,幻觉自然下降;表格用量化数据直观证明 SigLIP 是当前减轻 VLM 幻觉的最有效“即插即用”方案。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐



所有评论(0)