CVPR 2025 | 无需配对数据！慕尼黑工大提出盲匹配模型，开启跨模态对齐新范式！

在大模型与大数据集的驱动下，视觉与语言表示间的几何相似性正在增强——同一世界中的“猫、狗、飞机”等概念在两种模态内部的两两距离结构逐步趋同。基于这一“柏拉图式表示假说”，本文探索了无并行数据的视觉—语言对应学习。核心思路是：仅依赖各自模态内部的相似度矩阵，将跨模态匹配转化为最小化配对后失真的 QAP；在算法上提出因子化 Hahn‑Grant下界法，内存复杂度由 O(N^4) 降至 O(N^3)，并

CV实验室

927人浏览 · 2025-09-02 16:25:11

CV实验室 · 2025-09-02 16:25:11 发布

这篇论文提出了一个大胆的问题设定：在没有任何图文并行数据的前提下，是否仍可在视觉与语言的嵌入空间之间建立有效的一一对应关系（“盲匹配”）？作者将这一任务形式化为二次指派问题（QAP），并提出因子化 Hahn‑Grant 求解器以获得内存更友好的下界与更优的原始解；同时，他们给出了一个选择“可解子集”的优化视角，使较大规模、细粒度类别上的匹配成为可能。本文在 4 个数据集、33 个视觉模型与 27 个语言模型上进行了系统实验，并展示了一个零标注下的无监督分类原型应用。

我整理了CVPR 2025计算机视觉相关论文+源码，感兴趣的自取！

论文这里
author

论文基本信息

论文标题：It’s a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data
作者：Dominik Schnaus, Nikita Araslanov, Daniel Cremers
作者单位：TUM；MCML
发布日期：2025年5月29日
论文来源：https://arxiv.org/abs/2503.24129
代码与模型地址：https://github.com/dominik-schnaus/itsamatch

摘要

在大模型与大数据集的驱动下，视觉与语言表示间的几何相似性正在增强——同一世界中的“猫、狗、飞机”等概念在两种模态内部的两两距离结构逐步趋同。基于这一“柏拉图式表示假说”，本文探索了无并行数据的视觉—语言对应学习。核心思路是：仅依赖各自模态内部的相似度矩阵，将跨模态匹配转化为最小化配对后失真的 QAP；在算法上提出因子化 Hahn‑Grant下界法，内存复杂度由 O(N^4) 降至 O(N^3)，并配合更快的线性指派求解器与原始启发式，显著提升求解规模与质量；在任务设计上，建立了一个p-dispersion-sum视角以自动筛选“最适配”的类别子集。实验显示：在不少实例上，无需配对监督即可得到显著优于随机的匹配；进一步结合聚类中心与QAP匹配，可构造零标注无监督分类器，在 CIFAR‑10 上取得非平凡精度。

盲匹配概念示意

研究背景

视觉与语言大模型的发展路径并非同步：视觉侧常见自监督（如 DINO/DINOv2）、全监督（如 DeiT/ConvNeXt）与跨模态监督（如 CLIP）；语言侧多采用大规模语料自监督（如 SBERT 系列）。尽管训练范式、数据分布、网络结构差异明显，但大量经验工作与理论直觉均指向一个趋势：不同模态在抽象概念的相对关系（而非绝对坐标）上逐渐趋同。本文将这种“相对关系”用内点相似/距离矩阵来表征，并证明只要匹配后能同时最小化两模态结构的失真，就可能恢复跨模态的一一对应，哪怕从未见过任何并行配对样本。

这一设定的重要性在于：

它为理解模态一致性提供了新工具：研究者可不依赖标注，直接比较类间关系结构的一致性；
它为无监督视觉识别铺路：若能将“类别语义”（由文本端承载）对齐到图像簇中心，就能在零并行、零标注下实现类别赋名；
它为跨域/跨模态迁移打开空间：当获取配对数据困难或昂贵时，仍可“盲对齐”以移植语义知识。

主要贡献

问题形式化：提出仅基于模态内两两相似/距离的盲匹配 QAP框架，将跨模态对应学习等价为最小化配对后结构失真。
因子化 Hahn‑Grant 求解器：
- 记成本张量 C 可按失真函数的可分解形式因子化为两块 N×N 矩阵，从而将内存占用从 O(N^4) 降至 O(N^3)；
- 以Jonker‑Volgenant类 LAP 求解器替换 Hungarian，并重用 LAP 原始解作为 QAP 原始候选，提高收敛效率；
- 在多处循环中下推/回填线性项与常数项，逐步抬升对偶下界。
可解子集搜索：将“挑一组更容易匹配的类别子集”表述为p‑dispersion‑sum二次二元优化，借助商用求解器在合理时间内找到高对齐度子集，帮助在N>10时仍获得非平凡匹配。
系统实证：在 CIFAR‑10/100、ImageNet‑100 等上，覆盖 30+ 视觉模型与 20+ 语言模型，展示了无监督匹配的可行性与对求解器全局最优性的依赖；并以此构建了一个零并行数据的无监督分类原型。

乱序比例与结构一致性的单调关系

研究方法与基本原理

任务建模：从结构失真到 QAP

给定 N 个类别的视觉嵌入 { $x_i$ } 与语言嵌入 { $y_i$ }，构造两模态内部的相似度矩阵 X、Y（如内积或核相似），并以某种失真函数 $l(\cdot,\cdot)$ 衡量“在一个排列 $\pi$ 下，X 与 $Y_{pi}$ 的结构差异”，目标是寻找最小失真的排列：

$\pi^*\in\arg\min_{\pi\in\Pi_N}\;\sum_{i,j} l\big(X_{ij},Y_{\pi(i)\,\pi(j)}\big).$

将排列空间改写为置换矩阵集合 $\mathcal P_N$ 后，上式化为 Koopmans‑Beckmann 形式的二次指派问题：

$\min_{P\in\mathcal P_N}\; \sum_{i,j,k,l} l\big(X_{ik},Y_{jl}\big)\,P_{ij}P_{kl}.$

当失真函数满足
$l(A,B)= f_1(A)+f_2(B)-h_1(A)h_2(B)$ （覆盖负 Frobenius 内积、KL 与GW等常用度量）时，上式可因子化为

$\min_{P\in\mathcal P_N}\; \sum_{i,k}C^{(1)}_{ik}\sum_{j,l}C^{(2)}_{jl}\,P_{ij}P_{kl},$

其中 $C^{(1)}=-h_1(X),\; C^{(2)}=h_2(Y)$ 。这为后续的因子化对偶推进打下基础。

求解器：因子化 Hahn‑Grant（Dual‑Primal 协同）

经典 Hahn‑Grant 通过反复求解 N^2+1 个线性指派（LAP），将二次项“抽干”到线性与常数项，进而抬升对偶下界；但其显式维护 N×N×N×N 张量，内存为 O(N^4)。本文的因子化版本做了三点关键改造：

存量因子化：不再显式存 C，而以两个 $N\times N$ 的 $C^{(1)},C^{(2)}$ 加上三维缓存 U,V 记录“下推/回填”的局部贡献，整体内存降至 O(N^3)；
原始回收：每次 LAP 都产出一个可行置换，作者将其直接回填到 QAP作原始目标评估，择优保留，避免“只抬下界不顾上界”的迟滞；
更快 LAP：采用 Jonker‑Volgenant 路径算法族，配合高效实现，实测在相同迭代次数下更快地提升下界与改善原始解。

原/因子化 Hahn‑Grant 流程对比

可解子集：p‑dispersion‑sum 视角

并非所有类别集合都“几何一致”。作者定义对齐度 $A(S)=\sum_{i,j\in S} l(X_{ij},Y_{ij})$ ，并在 $∣ S ∣ = N$ 约束下最大化该量，得到标准的p‑dispersion‑sum二次二元规划。直观上，它偏好选择“在两模态里彼此关系最相似的一组类别”，从而让随后的 QAP 更易得到非平凡匹配。

评价度量与核选择

作者比较了多种“结构一致性”度量：Mutual k‑NN、CKA 与 GW 距离。小规模枚举实验显示，GW 在恢复真实排列上更稳健（匹配精度更高），因此在主体实验中默认采用 GW。

实验与分析

小规模匹配：N≈10 的全空间枚举

在 CIFAR‑10 与 CINIC‑10 上，作者对若干视觉/语言模型组合进行了全排列枚举，从而拿到全局最优作对照。主要现象：

多数组合的匹配精度显著高于随机 10%；
DINOv2 在 CIFAR‑10 上可达约 80%，在 CINIC‑10 上甚至可达 100%；
影响匹配性的因素中，预训练范式比“模型尺寸”更关键（自监督 DINOv2 系列整体更优）。

CIFAR‑10/CINIC‑10 小规模匹配精度

中/大规模匹配：N>10 的子集选择与对齐

在 ImageNet‑100 与 CIFAR‑100 上，作者先用 p‑dispersion‑sum 选出前十个对齐度最优的类别子集，再在每个 N 上（如 N=10,20,…,100）评估三类视觉模型（CLIP、DeiT、DINOv2）与 SBERT 语言模型的匹配：

各模型在小 N 时表现都很好；
随 N 增大，精度下滑，但很多 N<40 的子集仍可取得高精度匹配；
CLIP 在多数 N 上领先，表明跨模态监督有助于细粒度类间关系与语言空间更一致；
DINOv2 在 CIFAR‑100 上的下降更陡，提示其在细粒度层面与语言的结构一致性略逊于 CLIP/DeiT。

ImageNet‑100/CIFAR‑100 不同 N 上的匹配精度

求解器对比：全局最优的重要性

作者将本方法与 LocalCKA、GW‑OT（熵化）、FAQ、MPOpt 以及 Gurobi 做了两档对比：

小规模（可枚举）：只有 Gurobi 与本文始终命中全局最优；MPOpt 大多数时候接近最优；LocalCKA、OT、FAQ 往往陷在局部，匹配精度仅略高于随机。
大规模（N 到 100）：在 CIFAR‑100 上，本文的下界始终最紧，原始解多数 N 上最佳，且在 N≤40 的范围内可证明达到全局最优；Gurobi 在 N>40 时超时未收敛。

各求解器在大规模问题上的目标与下界

小规模枚举下各求解器对比（精度/目标/最优率）

关键结论

找到全局最优往往是得到“有意义匹配”的必要条件：局部最优（无论 OT 还是 FAQ）在目标值上看似不错，但对应的排列无法恢复真实对应；
对偶下界质量很重要：它既衡量算法进展，也决定能否认证全局最优；
因子化与原始回收的结合，使得在相同算力下可以处理更大的 N，并得到更有保障的匹配质量。

原型应用：零并行、零标注的无监督分类

流程：先对图像做 K‑Means 得到 K 个簇中心；再把这些中心与 K 条文本类别描述做 QAP 盲匹配；最终将每个簇的样本赋予对应文本类别——无需任何图文配对或图像标注。在 CIFAR‑10 上，DINOv2 + All‑Roberta‑large‑v1 的方案可达**~51%** 准确率，远高于随机 10%。尽管与有监督方法存在差距，但这已是首个真正意义上的全无监督分类实证之一。

无监督分类（K‑Means + QAP）准确率对比

误差分析与可复现实践

类语义歧义：某些类别在语言端的相似性过高（例如“狗/狼/狐狸”），在视觉端又受背景/姿态变化干扰，导致结构不一致；
对称性与多解：当若干类别在两模态中形成近似对称结构时，QAP 可能出现多重等价最优，匹配会在等价排列之间摇摆；
规模与算力：理论上 O(N^5) 的时间复杂度仍是瓶颈；但因子化与更快 LAP 求解显著推大了可处理规模。

总结

本文以“结构一致性”为抓手，在不使用并行数据的前提下实现了视觉—语言的一一匹配。方法上，将跨模态对齐重述为Koopmans‑Beckmann 型 QAP，并以因子化 Hahn‑Grant推进对偶下界与原始解；任务设计上，通过p‑dispersion‑sum筛选“更一致”的类别集合，缓解了细粒度扩展带来的难题。实验强有力地表明：在相当一部分实例上，盲匹配是可行的，且可直接催生零配对、零标注的无监督分类原型。

展望

可扩展求解：结合学习到的启发式或分层块对齐，在保持下界质量的同时把 N 推向 10^3 量级；
描述工程：在语言端设计判别力更强的类描述/模板，以提升细粒度一致性；
跨模态知识蒸馏：在无并行条件下，将语言语义蒸馏到视觉编码器，以显式拉近两模态内部几何；
应用纵深：面向开集识别、长尾分类与多模态检索，探索“盲对齐 + 在线自标注”的闭环训练。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

构建用户-物品-场景的“关系宇宙

　　在大模型能力日益强大的今天，AI“会不会写代码”已不再是问题，真正决定其能否成为开发者得力助手的关键，在于它“能不能理解上下文”。　　技术术语的更迭，不仅是语言表达的更替，更代表着思维范式的转变。上下文工程这一新术语，之所以能引起业内共鸣，折射的是智能体复杂性的演化和应对策略的转变，是对现实中算法和工程挑战的一种集体回应，尤其是在垂直/领域的智能体。　　　　现有的大模型已经非常智能。但即便是最

2048 AI社区

会员仍频被推送营销广告，夸克APP付费订阅体系“套路”何解？

2048 AI社区

AI赋能自动驾驶：多传感器数据融合新突破

传感器数据融合面临的主要挑战包括数据异构性、时间同步、空间校准以及噪声处理。多传感器数据融合是自动驾驶系统的核心技术之一，随着人工智能算法的进步和计算硬件的提升，融合效果将不断提高，推动自动驾驶技术向更高水平发展。多传感器数据融合通常分为三个层次：数据级融合、特征级融合和决策级融合。特征级融合提取各传感器的特征后进行融合；这些传感器产生的数据具有不同的模态、精度和更新频率，需要通过人工智能技术进行