CVPR 2025 | 无需配对数据!慕尼黑工大提出盲匹配模型,开启跨模态对齐新范式!
在大模型与大数据集的驱动下,视觉与语言表示间的几何相似性正在增强——同一世界中的“猫、狗、飞机”等概念在两种模态内部的两两距离结构逐步趋同。基于这一“柏拉图式表示假说”,本文探索了无并行数据的视觉—语言对应学习。核心思路是:仅依赖各自模态内部的相似度矩阵,将跨模态匹配转化为最小化配对后失真的 QAP;在算法上提出因子化 Hahn‑Grant下界法,内存复杂度由 O(N^4) 降至 O(N^3),并
这篇论文提出了一个大胆的问题设定:在没有任何图文并行数据的前提下,是否仍可在视觉与语言的嵌入空间之间建立有效的一一对应关系(“盲匹配”)?作者将这一任务形式化为二次指派问题(QAP),并提出因子化 Hahn‑Grant 求解器以获得内存更友好的下界与更优的原始解;同时,他们给出了一个选择“可解子集”的优化视角,使较大规模、细粒度类别上的匹配成为可能。本文在 4 个数据集、33 个视觉模型与 27 个语言模型上进行了系统实验,并展示了一个零标注下的无监督分类原型应用。
我整理了CVPR 2025计算机视觉相关论文+源码,感兴趣的自取!
论文基本信息
- 论文标题:It’s a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data
- 作者:Dominik Schnaus, Nikita Araslanov, Daniel Cremers
- 作者单位:TUM;MCML
- 发布日期:2025年5月29日
- 论文来源:https://arxiv.org/abs/2503.24129
- 代码与模型地址:https://github.com/dominik-schnaus/itsamatch
摘要
在大模型与大数据集的驱动下,视觉与语言表示间的几何相似性正在增强——同一世界中的“猫、狗、飞机”等概念在两种模态内部的两两距离结构逐步趋同。基于这一“柏拉图式表示假说”,本文探索了无并行数据的视觉—语言对应学习。核心思路是:仅依赖各自模态内部的相似度矩阵,将跨模态匹配转化为最小化配对后失真的 QAP;在算法上提出因子化 Hahn‑Grant下界法,内存复杂度由 O(N^4) 降至 O(N^3),并配合更快的线性指派求解器与原始启发式,显著提升求解规模与质量;在任务设计上,建立了一个p-dispersion-sum视角以自动筛选“最适配”的类别子集。实验显示:在不少实例上,无需配对监督即可得到显著优于随机的匹配;进一步结合聚类中心与QAP匹配,可构造零标注无监督分类器,在 CIFAR‑10 上取得非平凡精度。
研究背景
视觉与语言大模型的发展路径并非同步:视觉侧常见自监督(如 DINO/DINOv2)、全监督(如 DeiT/ConvNeXt)与跨模态监督(如 CLIP);语言侧多采用大规模语料自监督(如 SBERT 系列)。尽管训练范式、数据分布、网络结构差异明显,但大量经验工作与理论直觉均指向一个趋势:不同模态在抽象概念的相对关系(而非绝对坐标)上逐渐趋同。本文将这种“相对关系”用内点相似/距离矩阵来表征,并证明只要匹配后能同时最小化两模态结构的失真,就可能恢复跨模态的一一对应,哪怕从未见过任何并行配对样本。
这一设定的重要性在于:
- 它为理解模态一致性提供了新工具:研究者可不依赖标注,直接比较类间关系结构的一致性;
- 它为无监督视觉识别铺路:若能将“类别语义”(由文本端承载)对齐到图像簇中心,就能在零并行、零标注下实现类别赋名;
- 它为跨域/跨模态迁移打开空间:当获取配对数据困难或昂贵时,仍可“盲对齐”以移植语义知识。
相关工作
跨模态对齐传统上依赖并行数据或少量配对作为“锚点”,例如 CLIP 式联合训练或零样本“缝合”(stitching)方法;另一些工作采用Gromov‑Wasserstein(GW)类的结构保持距离来做不依赖点对的对齐,但计算代价与局部极值问题限制了规模与稳定性。QAP作为经典 NP 难问题,既有多种原始(primal)与对偶(dual)启发式,也有商业 MIP 求解器;然而,通用 QAP 在 N≥30 时常陷入内存与时间瓶颈。本文延续“使用结构保持度量做跨模态”的思路,但将之重铸为可因子化的 Koopmans‑Beckmann 型 QAP,并针对该结构对 Hahn‑Grant 进行因子化改造,使得在更大 N上获得更紧下界与更强原始解成为可能。
主要贡献
-
问题形式化:提出仅基于模态内两两相似/距离的盲匹配 QAP框架,将跨模态对应学习等价为最小化配对后结构失真。
-
因子化 Hahn‑Grant 求解器:
- 记成本张量 C 可按失真函数的可分解形式因子化为两块 N×N 矩阵,从而将内存占用从 O(N^4) 降至 O(N^3);
- 以Jonker‑Volgenant类 LAP 求解器替换 Hungarian,并重用 LAP 原始解作为 QAP 原始候选,提高收敛效率;
- 在多处循环中下推/回填线性项与常数项,逐步抬升对偶下界。
-
可解子集搜索:将“挑一组更容易匹配的类别子集”表述为p‑dispersion‑sum二次二元优化,借助商用求解器在合理时间内找到高对齐度子集,帮助在N>10时仍获得非平凡匹配。
-
系统实证:在 CIFAR‑10/100、ImageNet‑100 等上,覆盖 30+ 视觉模型与 20+ 语言模型,展示了无监督匹配的可行性与对求解器全局最优性的依赖;并以此构建了一个零并行数据的无监督分类原型。
研究方法与基本原理
任务建模:从结构失真到 QAP
给定 N 个类别的视觉嵌入 { x i x_i xi} 与语言嵌入 { y i y_i yi},构造两模态内部的相似度矩阵 X、Y(如内积或核相似),并以某种失真函数 l ( ⋅ , ⋅ ) l(\cdot,\cdot) l(⋅,⋅) 衡量“在一个排列 π \pi π 下,X 与 Y p i Y_{pi} Ypi 的结构差异”,目标是寻找最小失真的排列:
π ∗ ∈ arg min π ∈ Π N ∑ i , j l ( X i j , Y π ( i ) π ( j ) ) . \pi^*\in\arg\min_{\pi\in\Pi_N}\;\sum_{i,j} l\big(X_{ij},Y_{\pi(i)\,\pi(j)}\big). π∗∈argπ∈ΠNmini,j∑l(Xij,Yπ(i)π(j)).
将排列空间改写为置换矩阵集合 P N \mathcal P_N PN 后,上式化为 Koopmans‑Beckmann 形式的二次指派问题:
min P ∈ P N ∑ i , j , k , l l ( X i k , Y j l ) P i j P k l . \min_{P\in\mathcal P_N}\; \sum_{i,j,k,l} l\big(X_{ik},Y_{jl}\big)\,P_{ij}P_{kl}. P∈PNmini,j,k,l∑l(Xik,Yjl)PijPkl.
当失真函数满足
l ( A , B ) = f 1 ( A ) + f 2 ( B ) − h 1 ( A ) h 2 ( B ) l(A,B)= f_1(A)+f_2(B)-h_1(A)h_2(B) l(A,B)=f1(A)+f2(B)−h1(A)h2(B)(覆盖负 Frobenius 内积、KL 与GW等常用度量)时,上式可因子化为
min P ∈ P N ∑ i , k C i k ( 1 ) ∑ j , l C j l ( 2 ) P i j P k l , \min_{P\in\mathcal P_N}\; \sum_{i,k}C^{(1)}_{ik}\sum_{j,l}C^{(2)}_{jl}\,P_{ij}P_{kl}, P∈PNmini,k∑Cik(1)j,l∑Cjl(2)PijPkl,
其中 C ( 1 ) = − h 1 ( X ) , C ( 2 ) = h 2 ( Y ) C^{(1)}=-h_1(X),\; C^{(2)}=h_2(Y) C(1)=−h1(X),C(2)=h2(Y)。这为后续的因子化对偶推进打下基础。
求解器:因子化 Hahn‑Grant(Dual‑Primal 协同)
经典 Hahn‑Grant 通过反复求解 N^2+1 个线性指派(LAP),将二次项“抽干”到线性与常数项,进而抬升对偶下界;但其显式维护 N×N×N×N 张量,内存为 O(N^4)。本文的因子化版本做了三点关键改造:
- 存量因子化:不再显式存 C,而以两个 N × N N\times N N×N 的 C ( 1 ) , C ( 2 ) C^{(1)},C^{(2)} C(1),C(2) 加上三维缓存 U,V 记录“下推/回填”的局部贡献,整体内存降至 O(N^3);
- 原始回收:每次 LAP 都产出一个可行置换,作者将其直接回填到 QAP作原始目标评估,择优保留,避免“只抬下界不顾上界”的迟滞;
- 更快 LAP:采用 Jonker‑Volgenant 路径算法族,配合高效实现,实测在相同迭代次数下更快地提升下界与改善原始解。
可解子集:p‑dispersion‑sum 视角
并非所有类别集合都“几何一致”。作者定义对齐度 A ( S ) = ∑ i , j ∈ S l ( X i j , Y i j ) A(S)=\sum_{i,j\in S} l(X_{ij},Y_{ij}) A(S)=∑i,j∈Sl(Xij,Yij),并在 ∣ S ∣ = N |S|=N ∣S∣=N 约束下最大化该量,得到标准的p‑dispersion‑sum二次二元规划。直观上,它偏好选择“在两模态里彼此关系最相似的一组类别”,从而让随后的 QAP 更易得到非平凡匹配。
评价度量与核选择
作者比较了多种“结构一致性”度量:Mutual k‑NN、CKA 与 GW 距离。小规模枚举实验显示,GW 在恢复真实排列上更稳健(匹配精度更高),因此在主体实验中默认采用 GW。
实验与分析
小规模匹配:N≈10 的全空间枚举
在 CIFAR‑10 与 CINIC‑10 上,作者对若干视觉/语言模型组合进行了全排列枚举,从而拿到全局最优作对照。主要现象:
- 多数组合的匹配精度显著高于随机 10%;
- DINOv2 在 CIFAR‑10 上可达约 80%,在 CINIC‑10 上甚至可达 100%;
- 影响匹配性的因素中,预训练范式比“模型尺寸”更关键(自监督 DINOv2 系列整体更优)。
中/大规模匹配:N>10 的子集选择与对齐
在 ImageNet‑100 与 CIFAR‑100 上,作者先用 p‑dispersion‑sum 选出前十个对齐度最优的类别子集,再在每个 N 上(如 N=10,20,…,100)评估三类视觉模型(CLIP、DeiT、DINOv2)与 SBERT 语言模型的匹配:
- 各模型在小 N 时表现都很好;
- 随 N 增大,精度下滑,但很多 N<40 的子集仍可取得高精度匹配;
- CLIP 在多数 N 上领先,表明跨模态监督有助于细粒度类间关系与语言空间更一致;
- DINOv2 在 CIFAR‑100 上的下降更陡,提示其在细粒度层面与语言的结构一致性略逊于 CLIP/DeiT。
求解器对比:全局最优的重要性
作者将本方法与 LocalCKA、GW‑OT(熵化)、FAQ、MPOpt 以及 Gurobi 做了两档对比:
- 小规模(可枚举):只有 Gurobi 与本文始终命中全局最优;MPOpt 大多数时候接近最优;LocalCKA、OT、FAQ 往往陷在局部,匹配精度仅略高于随机。
- 大规模(N 到 100):在 CIFAR‑100 上,本文的下界始终最紧,原始解多数 N 上最佳,且在 N≤40 的范围内可证明达到全局最优;Gurobi 在 N>40 时超时未收敛。
关键结论
- 找到全局最优往往是得到“有意义匹配”的必要条件:局部最优(无论 OT 还是 FAQ)在目标值上看似不错,但对应的排列无法恢复真实对应;
- 对偶下界质量很重要:它既衡量算法进展,也决定能否认证全局最优;
- 因子化与原始回收的结合,使得在相同算力下可以处理更大的 N,并得到更有保障的匹配质量。
原型应用:零并行、零标注的无监督分类
流程:先对图像做 K‑Means 得到 K 个簇中心;再把这些中心与 K 条文本类别描述做 QAP 盲匹配;最终将每个簇的样本赋予对应文本类别——无需任何图文配对或图像标注。在 CIFAR‑10 上,DINOv2 + All‑Roberta‑large‑v1 的方案可达**~51%** 准确率,远高于随机 10%。尽管与有监督方法存在差距,但这已是首个真正意义上的全无监督分类实证之一。
误差分析与可复现实践
- 类语义歧义:某些类别在语言端的相似性过高(例如“狗/狼/狐狸”),在视觉端又受背景/姿态变化干扰,导致结构不一致;
- 对称性与多解:当若干类别在两模态中形成近似对称结构时,QAP 可能出现多重等价最优,匹配会在等价排列之间摇摆;
- 规模与算力:理论上 O(N^5) 的时间复杂度仍是瓶颈;但因子化与更快 LAP 求解显著推大了可处理规模。
总结
本文以“结构一致性”为抓手,在不使用并行数据的前提下实现了视觉—语言的一一匹配。方法上,将跨模态对齐重述为Koopmans‑Beckmann 型 QAP,并以因子化 Hahn‑Grant推进对偶下界与原始解;任务设计上,通过p‑dispersion‑sum筛选“更一致”的类别集合,缓解了细粒度扩展带来的难题。实验强有力地表明:在相当一部分实例上,盲匹配是可行的,且可直接催生零配对、零标注的无监督分类原型。
展望
- 可扩展求解:结合学习到的启发式或分层块对齐,在保持下界质量的同时把 N 推向 10^3 量级;
- 描述工程:在语言端设计判别力更强的类描述/模板,以提升细粒度一致性;
- 跨模态知识蒸馏:在无并行条件下,将语言语义蒸馏到视觉编码器,以显式拉近两模态内部几何;
- 应用纵深:面向开集识别、长尾分类与多模态检索,探索“盲对齐 + 在线自标注”的闭环训练。
更多推荐
所有评论(0)