0.2B 参数逆袭 GPT-4.1：组合推理的技术革命与评估范式重构

摘要：加州大学研究团队提出创新性GroupMatch指标和Test-Time Matching（TTM）算法，使小参数模型实现超越性表现。仅0.2B参数的SigLIP-B16在组合推理基准测试中超越GPT-4.1，GPT-4.1更首次在Winoground测试中突破人类水平。该研究揭示了传统AI评估体系的局限性，通过测试阶段优化挖掘模型潜在能力，为小模型逆袭大模型提供了新思路。TTM算法通过伪标签

Walksunw

759人浏览 · 2025-11-11 16:58:26

Walksunw · 2025-11-11 16:58:26 发布

0.2B 参数逆袭 GPT-4.1：组合推理的技术革命与评估范式重构

大家好，我是AI算法工程师七月，曾在华为、阿里任职，技术栈广泛，爱好广泛，喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

关注公众号：量子基态，获取最新观察、思考和文章推送。
关注知乎：量子基态，获取最新观察、思考和文章推送。
关注CSDN：量子基态，获取最新观察、思考和文章推送。
关注稀土掘金：量子基态，获取最新观察、思考和文章推送。
网站1 ：七月
网站2：zerodesk

我会在这里分享关于编程技术、独立开发、行业资讯，思考感悟等内容。爱好交友，想加群滴滴我，wx：swk15688532358，交流分享

如果本文能给你提供启发或帮助，欢迎动动小手指，一键三连 (点赞、评论、转发)，给我一些支持和鼓励，谢谢。

作者：七月链接：http://www.xinghehuimeng.com.cn 来源：七月著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

传送门

博客链接：https://yinglunz.com/blogs/ttm.html

论文链接：https://arxiv.org/pdf/2510.07632

代码链接：https://github.com/yinglunz/tes

加州大学研究

加州大学河滨分校 Yinglun Zhu 团队的研究如同一道惊雷：仅 0.2B 参数的 SigLIP-B16 模型，在 MMVP-VLM 组合推理基准测试中超越 GPT-4.1，GPT-4.1 更是在 Winoground 测试中首次实现对人类的超越。这一突破并非源于模型架构的颠覆性革新，而是直指 AI 评估体系的核心缺陷 —— 长期被忽视的 “指标偏见” 与 “测试阶段潜力解锁”。

添加图片注释，不超过 140 字（可选）

团队据此提出了新的GroupMatch指标，能够挖掘被现有评测掩盖的潜在能力，使GPT-4.1首次在Winoground基准测试上超越人类表现。

基于这一洞见，团队进一步提出一种无需外部监督、能够自我改进的迭代算法Test-Time Matching（TTM），可在模型推理阶段显著提升性能。

得益于TTM，仅0.2B参数的SigLIP-B16就在MMVP-VLM基准测试上超越了GPT-4.1，刷新了当前最优结果。

组合推理

组合推理是什么？？？

组合推理（compositional reasoning）是衡量 AI 智能水平的核心维度，它要求模型能够将对象、属性和关系重新组合，理解从未见过的新情境，本质上是 “举一反三” 的能力。在多模态场景中，这种能力尤为关键 —— 例如理解 “红色杯子在蓝色桌子上” 与 “蓝色杯子在红色桌子上” 的语义差异，并精准匹配对应图像。

当前主流评测指标对AI模型的要求过于严苛，往往以“全对即得分”的二元标准评判结果，忽略了模型在语义关联和逻辑推导中的潜在理解能力。

以经典的 Winoground 基准测试为例，该测试采用 2×2 群组设计：两组文本用词完全相同但顺序不同，每组文本仅对应一张图像，要求模型完成精准匹配。尽管 GPT-4V 等前沿模型在多模态任务中表现突出，但在该测试中此前的最佳得分仅为 58.75，远低于人类的 85.5 分。

添加图片注释，不超过 140 字（可选）

核心原因，在于传统评测指标的设计缺陷。广泛使用的 GroupScore 指标采用 “孤立成对验证” 逻辑：要求每张图像与每条文本必须精准匹配，只要出现一次错配，整组得分便判为 0。

GroupMatch

GroupMatch 的核心创新在于，不再逐一检查图像与文本的孤立匹配关系，而是考虑群组内所有可能的匹配组合（共 k! 种），选择全局一致性最优的匹配方案作为评估依据。

该方法不再要求AI输出与标准答案完全一致，而是通过分析多个候选答案之间的语义群组关系，判断模型是否达到了合理的推理层级。这种更具包容性的评估机制，能够识别出那些虽未精准命中但逻辑路径正确的回答，从而更公平地衡量AI的深层理解能力。

主要分为两步：

使用 GroupMatch 指标对模型的输出结果进行评估，筛选出全局一致性最优的匹配方案；
测试阶段过拟合：将筛选出的最优匹配作为目标，在测试阶段对模型进行针对性微调，使模型精准输出该匹配结果。

它没有改变模型的训练过程，而是通过 “评估引导优化” 的思路，让模型原本就具备的组合推理能力得以显现。

SimpleMatch 仅通过这两步简单操作，就让 0.2B 参数的 SigLIP-B16 模型在 Winoground 测试中超越了此前所有模型的表现，同时使 GPT-4.1 的得分突破人类水平阈值。

添加图片注释，不超过 140 字（可选）

Test-Time Matching（TTM）

这是一种不需要外部监督的方法，通过测试阶段的自我训练，放大模型的组合推理潜力，成为小模型逆袭大模型的关键推手。

TTM算法的本质其实就是融合子训练、半监督学习和主动学习的核心。主要通过三次迭代过程实现性能的持续提升。

模型对所有测试群组进行初步匹配预测，生成基础匹配结果
设定置信度阈值，仅保留得分差距超过阈值的高置信匹配结果作为 “伪标签”
基于伪标签对模型进行自我微调，提升模型在相似场景下的匹配精度；同时随着迭代次数增加，逐步放宽置信度阈值，将更多中等置信度的样本纳入训练范围，实现 “从易到难” 的渐进式学习

TTM的核心在于两点：

基于GroupMatch的伪标签能更有效地利用群组结构，提供更强的监督信号；
阈值的逐步衰减机制让模型先从高置信数据学习，再逐步扩展覆盖范围。

添加图片注释，不超过 140 字（可选）

从研究中的实验结果来看的话效果明显。

TTM 算法的相对性能提升最高可达 10.5%，相对错误率下降 54.8%

在 ColorSwap 数据集上让 SigLIP-L16 模型达到 GPT-4.1 的水平

在 MMVP-VLM 数据集上助力 SigLIP-B16（0.2B）超越 GPT-4.1，刷新了该基准的SOTA。

这些数字表明TTM算法的这个效果还是很不错的。

效果

研究人员在Winoground 测试：GPT-4.1 在 GroupMatch 指标与 SimpleMatch 方法的加持下，首次突破人类 85.5 分的基准线。

添加图片注释，不超过 140 字（可选）

他们对0.2B参数的SigLIP-B16进行TTM算法的优化，优化之后发现其性能超越了GPT4.1。

在多个其他的数据集上面。TTM的算法进行改进之后的性能都是提升的，并且WhatsUp的数据集的性能直接达到了85.7%。

添加图片注释，不超过 140 字（可选）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Weaviate 技术详解与 Spring AI 集成实践

Weaviate 是一个开源的向量数据库，专为存储、检索大规模机器学习模型生成的向量嵌入（embeddings）而设计。它支持丰富的内容与元数据管理，并能高效执行相似度检索与复杂过滤操作。Weaviate 是什么？—— 专为大规模语义检索设计的开源向量数据库。为什么用 Weaviate？—— 支持高性能向量检索、灵活元数据过滤、易于扩展和集成。Spring AI 集成优势？—— 简化配置、自动装配

2048 AI社区

Spring AI 集成 Typesense 向量存储 ——原理、配置与最佳实践详解

Spring AI 自动接入，嵌入模型生成向量；Typesense极速检索，元数据灵活过滤。配置简单，流程清晰，结构分明，效果可控。Typesense 向量存储结合 Spring AI，是构建智能语义搜索与推荐系统的强大组合。通过自动配置、灵活扩展、元数据过滤等特性，既实现了极致性能，也保证了开发体验。希望本文的结构化讲解和三种 mermaid 图表，能帮助你快速掌握其原理与工程实践，知其然，更知