单靠大模型也翻车?缺陷识别准确率暴涨20%!清华AgentIAD:单一智能体框架,专门解决微小缺陷
在四个工业异常检测基准上进行评估,并将模型与基于MLLM和CLIP的方法进行比较,包括专有模型、开源VLM、微调的GRPO系统和基于提示的CLIP变体(AnomalyCLIP、UniVAD)。这种基于工具的多轮推理过程使智能体能够首先定位模糊区域,然后检索参考知识,最后得出可靠、可解释的结论——实现了比非工具单轮推理显著更高的准确性。而工业缺陷通常是细微的、异质的,并且位于杂乱背景的小区域内,这使

原文链接:工业异常检测解决方案
https://mp.weixin.qq.com/s/zQTqebR-7bIb8hAOXfnrZQ?token=877402274&lang=zh_CN
工业异常检测的核心任务异常明确:发现产品中的瑕疵。然而,一道几毫米的划痕、一个针尖大小的气泡——这些微观异常需要模型具备显微镜般的局部感知能力。
当前具备局部感知能力的异常检测系统多依赖纯视觉算法。但由于模型缺乏语义理解能力,以及异常训练样本的稀少,导致在将异常准确分类为具体类型时效果不佳。在面对开放域、未知类别的异常时,模型更是直接“趴窝”。
为了赋予模型“诊断”而不仅仅是“报警”的能力,一个直观的思路是构建两阶段系统:先用视觉专家模型进行初筛定位,再将异常区域送入VLM进行语义诊断。具体可查阅文章首个零样本工业异常分类方案,支持QwenVL、GPT4o等后端。

但视觉专家模型本身的检测能力是否足够鲁棒?我们更需要的是一种通用视觉异常检测系统。在大模型基础能力之上,视觉智能体技术带来了新思路。
视觉智能体能够使用工具进行迭代视觉检测。Agentic 通过智能代理实现无需标注数据的目标检测,同时能推理目标颜色、形状和纹理等属性。在工业质检场景中,它能判断电容器是否安装到位,识别电路板焊接是否合格。
即使采用智能体代理,其本质仍是调用MLLM组合。工业异常检测场景中缺陷部分往往只占图像的几个像素,传统视觉的难点,同样是大模型的短板。

在低分辨率下,连“RAM使用率”这样的UI文字都识别不清,各个模型只有在 4K 分辨率下才能准确回答,这正是工业检测的痛点。如何提升视觉预训练的分辨率可查阅之前介绍的英伟达的一篇工作英伟达开源项目PS3:让大模型真正"看清"世界。
有没有一种方案,能融合智能体的推理能力,又克服大模型的视力缺陷?AgentIAD应运而生:这是一个工具增强型单智能体框架,实现了观察、缩放、比较和验证的迭代推理过程,模拟人类检测员的检查逻辑。

如上图所示,非工具 MLLMs 依赖单次全局传递,常常错误分类微妙缺陷,并且无法将细微异常线索与自然变化区分开来。而 AgentIAD 通过工具驱动推理纠正这些失败:感知放大器暴露细粒度异常线索,而比较检索器则将其与正常参考进行验证。
一、暴涨20%的工业异常检测测试效果
大多数基于 MLLM 的系统仍然在单轮次、非交互式范式下运行:模型观察全局图像一次并直接产生决策,无法重新检查可疑区域或参考正常样本。
而工业缺陷通常是细微的、异质的,并且位于杂乱背景的小区域内,这使得单次前向传播的检测器容易忽略细粒度异常。

在四个工业异常检测基准上进行评估,并将模型与基于MLLM和CLIP的方法进行比较,包括专有模型、开源VLM、微调的GRPO系统和基于提示的CLIP变体(AnomalyCLIP、UniVAD)。
如上表所示,AgentIAD 显著超越了先前的方法,平均超过AnomalyCLIP +24.8% 和 UniVAD +20.8%。这一优势源于其自适应的工具引导推理,允许进行深思熟虑的检查和验证,而不是依赖静态提示。

二、单一智能体框架下的工业异常检测系统
AgentIAD通过工具驱动推理,专注于通过工具增强框架提升制造过程中微小缺陷的检测能力。利用感知放大器放大可疑区域,并通过比较检索器咨询正常样本,实现了模拟人类认知的多轮检查过程。

这种基于工具的多轮推理过程使智能体能够首先定位模糊区域,然后检索参考知识,最后得出可靠、可解释的结论——实现了比非工具单轮推理显著更高的准确性。
代理通过工具增强的思维链(CoT)进行多轮推理。在每一步中,它可以调用感知放大器放大可疑区域进行细粒度分析,比较检索器查询正常样本以验证不确定线索。
这种统一设计将模型从被动预测器转变为主动视觉推理器,知道看什么、何时行动以及如何修正,为工业检测带来了可解释性和自主性,论文链接如下。
# Paper
Tool-Augmented Single-Agent for Industrial Anomaly Detection
# 论文
https://arxiv.org/abs/2512.13671
如果你正在研究多模态交互、具身智能或视觉基础模型,这个工作值得你关注。小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!
更多解决方案
https://mp.weixin.qq.com/s/zQTqebR-7bIb8hAOXfnrZQ?token=877402274&lang=zh_CN
更多推荐


所有评论(0)