转自:AI新文

AI领域中的“对比学习”相关研究

1.视频字幕的统一层次对比学习

原标题:Unified Hierarchical Contrastive Learning for Video Captioning
作者:Haoying Sun;Shuyi Li;Zeyu Xi;Lifang Wu
期刊:Information Fusion
出版时间:2025/10/16
摘要:视频字幕涉及为视频生成文本描述。许多视频字幕模型通常使用视频文本对进行训练,并采用最大似然估计作为其学习方法,这忽略了字幕的显著性,导致模型生成的字幕具有很高的相似性。尽管对比方法提高了显著性,但它们的性能受参考模型的影响,并且它们依赖于两个阶段的训练过程:首先训练参考模型,然后训练目标模型以超过参考模型。在这项工作中,我们提出了一种简单而有效的统一层次对比学习(UHCL)方法,该方法利用三元解码器和层次对比学习来提高整体性能,并在统一的框架内鼓励差异性。具体来说,UHCL使用三元解码器来使用额外的匹配和不匹配视频字幕对来计算对比度损失。此外,使用自适应标记融合模块来减少视觉标记的冗余,指导模型在名词和动词级别应用层次对比约束。值得注意的是,UHCL不需要先验信息,因此避免了引入噪声的风险,并且在推理过程中只需要单个解码器,没有额外的计算开销。在MSR-VTT和MSVD上进行的大量实验证明了该方法的有效性及其相对于最先进方法的优越性。特别是,UHCL在MSVD和MSR-VTT数据集上分别提高7.4%和0.6%的绝对CIDEr分数,从而优于最佳结果。

2.基于扩散增强的推荐兴趣感知图对比学习

原标题:Interest-Aware Graph Contrastive Learning for Recommendation with Diffusion-based Augmentation
作者:Mengyuan Jing; Yanmin Zhu; Zhaobo Wang; Jiadi Yu; Feilong Tang
期刊:IEEE Transactions on Knowledge and Data Engineering
出版时间:2025/10/13
摘要:图对比学习(GCL)近年来在增强推荐系统方面得到了很大的关注。大多数现有的基于GCL的方法扰动原始数据图以生成视图,在这些视图之间执行对比学习以学习可推广的表示。然而,大多数这些方法依赖于基于数据或模型的增强技术,这可能会破坏兴趣一致性。本文提出了一种新的基于扩散模型的兴趣感知增强方法来解决这个问题。具体来说,我们利用条件扩散模型来通过调节节点交互信息来生成兴趣一致的视图,确保生成的视图与节点的兴趣一致。基于这种增强方法,我们引入了DiffCL,一种用于推荐的图对比学习框架。此外,我们提出了一种简单到困难的生成策略。通过逐步调整反向去噪过程的起点,该策略进一步增强了有效的对比学习。我们在三个公共真实世界数据集上评估了DiffCL,结果表明,我们的方法优于最先进的技术,证明了其有效性。

3.用于图对比学习的可逆列去纠缠增强策略

原标题:Reversible Column Disentangled Augmentation Tricks for Graph Contrastive Learning
作者:Yuntai Ding; Tao Ren; Yifan Wang; Chong Chen; Xian-Sheng Hua; Wei Ju
期刊:IEEE Transactions on Multimedia
出版时间:2025/10/09
摘要:图对比学习(GCL)以其无标记信息的自监督图表示学习和对下游任务的良好泛化而受到广泛关注。然而,图结构数据的数据增强比图像的数据增强更具挑战性。我们认为,GCL的简单数据增强可能会有破坏图的内在结构或创建不够多样化的视图的风险。此外,典型的逐层特征传播过程压缩或丢弃借口任务无关的特征信息,导致未对齐下游任务的性能不稳定和次优。在本文中,我们提出了一个新的框架Rev-GCL,该框架旨在通过可逆列解纠缠模型增强技巧来维护多级图语义,而不会丢失信息。具体来说,我们提出了一种具有可逆连接的多列网络作为编码器,其中所有列共享相同的结构,并接收输入图的副本。列之间的可逆连接确保无损传输,允许表示从低级语义逐渐分离到高级语义。在此基础上,我们引入了随机传播和非对称列两种模型增强技术来构造不同的同级编码器。这些方法生成不同的图视图,这些图视图可以在对比学习中过滤掉高频噪声,从而产生更通用的节点特征表示。在八个常见基准数据集上的广泛实验表明,Rev-GCL在节点分类、聚类和链路预测任务中始终优于现有的最先进方法。

4.将视听文本生成与对比学习相结合以增强多模态情感分析

原标题:Integrating Audio–Visual Text Generation with Contrastive Learning for Enhanced Multimodal Emotion Analysis
作者:Junyi Xiang;Xianxun Zhu;Erik Cambria
期刊:Information Fusion
出版时间:2025/10/06
摘要:在普及社交媒体和人机交互的时代,准确的多模态情感分析对于增强情感计算系统中的用户体验至关重要。目前的方法主要依赖于朴素的融合技术,这些技术通常无法捕获细粒度的情感线索,如微妙的音色或微观表达。本研究引入了一种新的方法,将视听文本生成与对比学习相结合,旨在通过从音频和视觉输入中生成描述性字幕来解决先前基于融合的方法中缺乏可解释性和细粒度情感线索的问题。然后通过对比学习将生成的标题与模态特定的特征对齐,丰富了多模态数据的传统融合。在MOSI和MOSEI数据集上的实验表明,与最先进的模型相比,我们的框架显示出一致的改进,在MOSI数据集上实现了85.12/87.51的二分类(Acc-2)精度和53.04的五类分类(Acc-5)精度。此外,我们的方法在情感强度预测方面表现出色,平均绝对误差(MAE)为0.714,提高了情感分析的可解释性和鲁棒性。这些结果强调了将文本生成与对比学习相结合以实现更精确和更可解释的多模态情感识别的有效性。提出的框架为更复杂和情感感知的人机交互提供了一条有前途的道路。

5.XIPHOS:基于无监督图对比学习的自适应车内入侵检测

原标题:XIPHOS: Adaptive In-Vehicle Intrusion Detection via Unsupervised Graph Contrastive Learning
作者:Qiguang Jiang; Kai Wang; Yuliang Wei; Hongri Liu; Bailing Wang
期刊:IEEE Transactions on Information Forensics and Security
出版时间:2025/10/06
摘要:随着车辆越来越互联和智能化,对车内网络(IVN)的攻击变得越来越普遍,并对车辆安全和乘员安全构成巨大威胁。利用深度学习模型的入侵检测技术已经成为保护IVN的常用方法。然而,现有的工作显示出一些弱点。(1)无法直接提取隐藏在数据行为模式中的丰富信息。(2)大多数监督模型的有效性取决于平衡的数据分布和高质量的标签,而真实世界数据集的当前状态不符合这些要求。(3)无监督学习模型的性能不如有监督方法,并伴随着不稳定或不可预测的结果。本文设计并实现了XIPHOS,这是一种新颖的自适应IVN入侵检测机制,能够在无监督的环境中实现高效的检测性能。XIPHOS利用互信息最大化原理来提取尽可能多的潜在数据不变量。通过通过特征单元聚类组合的误差偏移来检测异常系统行为,XIPHOS能够从IVN数据中执行图级表示和节点级表示。此外,XIPHOS的自适应性通过其在不同检测场景下随时间更新模型参数的能力来表示。在广泛使用的数据集上的实验结果表明,XIPHOS在检测性能和不受攻击标记数据依赖性方面比现有方法具有更大的优势。该代码位于https://github.com/wangkai-tech23/XIPHOS。

6.AL-HCL:融合引导下多模态情感分析的主动学习和层次对比学习

原标题:AL-HCL: Active Learning and Hierarchical Contrastive Learning for Multimodal Sentiment Analysis with Fusion Guidance
作者:Xiaojiang He; Yushan Pan; Zhijie Xu; Zuhe Li; Xinfei Guo; Chenguang Yang
期刊:IEEE Transactions on Affective Computing
出版时间:2025/09/25
摘要:多模态情感分析(MSA)是人工智能(AI)中一个快速发展的领域。然而,它面临两大挑战:(1)基于深度学习的MSA模型通常依赖于大型多模态数据集,但难以获得次优的数据利用率,以及(2)模式之间的不一致阻碍了不同信息源的有效融合。为了解决这些挑战,我们提出了用于MSA的主动学习和层次对比学习(AL-HCL)模型。该模型结合了主动学习技术来平衡预测不确定性和样本多样性,从未标记的池中选择性地识别和标记高值样本。这种方法减少了注释成本,同时保持了稳健的性能。此外,我们还引入了一个三层对比学习框架。第一层解决了单峰数据中的异质性,第二层解决了单模态和融合模态之间的差异,第三层使用基于矩阵的融合(MBF)模块来提取高层语义特征,从而实现更深层次的特征级融合。一种新的模态融合策略进一步增强了跨模态交互,优化了融合过程。在基准MSA数据集CMU-MOSI、CMU-MOSEI和CH SIMS上的大量实验表明,AL-HCL优于最先进的模型,验证了所提出的主动学习策略的有效性。

7.多拓扑对比图表示学习

原标题:Multi-topology contrastive graph representation learning
作者:Yu Xie;Jie Jia;Ming Li
期刊:Science China Information Sciences
出版时间:2025/09/19
摘要:自监督图表示学习由于解决了图数据中的标签稀缺问题而受到了广泛的关注。然而,现有的方法在不同尺度上未充分利用具有多种形式的图结构和子图结构,因此未能深入探索图数据的多样性和复杂性。本文提出了一种新的多拓扑对比图表示学习(MCGRL)框架,旨在通过捕获不同拓扑中的多粒度信息来提高节点表示学习的有效性。具体来说,我们从不同的视角生成多个拓扑,然后对比不同拓扑中学习的多粒度节点表示,以保留丰富的多拓扑交互和互补信息。在深入研究经典的并上交的基础上,我们提出了子图级相似约束(SIoU),以探索多个拓扑之间的语义一致性,并动态描述不同粒度的子图信息。在真实数据集上的实验表明,与当前最先进的方法相比,该方法是有效的。

8.矩阵补全的多通道超图对比学习

原标题:Multi-Channel Hypergraph Contrastive Learning for Matrix Completion
作者:Xiang Li;Changsheng Shui;Zhongying Zhao;Junyu Dong;Yanwei Yu
期刊:ACM Transactions on Information Systems
出版时间:2025/09/17
摘要:评级是典型的用户明确的反馈,它直观地反映了用户对相关项目的喜爱程度。(评级)矩阵完成本质上是一个评级预测过程,也是推荐系统中的一个重要问题。最近,图神经网络(GNN)在矩阵补全中得到了广泛的应用,它通过将评级矩阵表示为二部图来捕获用户对项目的偏好。然而,由于真实世界场景中的数据稀疏性和长尾分布,现有方法很容易受到影响。此外,GNN的消息传递机制使得难以捕获节点之间的高阶相关性和约束,这在推荐任务中非常有用。为了解决这些挑战,我们提出了一个用于矩阵补全的多通道超图对比学习框架,名为MHCL。具体来说,MHCL自适应地学习超图结构以捕获节点之间的高阶相关性,并通过基于注意力的跨视图聚合来联合捕获局部和全局协作关系。此外,为了考虑评级的大小和顺序信息,我们将不同的评级子图视为不同的通道,鼓励相邻评级之间的对齐,并通过多通道交叉评级对比学习进一步实现不同评级之间的相互增强。在八个公开可用的真实世界数据集上的大量实验表明,我们提出的方法显著优于当前最先进的方法。我们模型的源代码位于https://github.com/lx970414/MHCL。

9.用于连续动态链路预测的细粒度交互式Transformer

原标题:Fine-Grained Interactive Transformers for Continuous Dynamic Link Prediction
作者:Yajing Wu; Yongqiang Tang; Wensheng Zhang
期刊:IEEE Transactions on Cybernetics
出版时间:2025/09/16
摘要:DLP在理解和预测跨不同领域的真实世界系统中不断发展的关系方面发挥着关键作用。然而,准确预测未来链路仍然具有挑战性,因为现有方法通常忽略了单个节点内动态交互的独立建模和节点序列之间潜在交互的细粒度特征。为了解决这些挑战,我们提出了FineFormer(细粒度交互式Transformer),这是一个在自我注意和交叉注意机制之间交替的新框架,通过分层对比学习增强。这种设计使FineFormer能够揭示单个节点序列内和不同节点序列之间的细粒度时间依赖性。具体来说,自我注意捕获单个节点的交互序列中的时空动态,而交叉注意关注成对节点序列中的复杂交互。此外,通过战略性地应用逐层对比学习,FineFormer细化节点表示,并增强模型在特征细化过程中区分连接节点对和不连接节点对的能力。在五个具有挑战性和多样性的真实世界动态链路预测(DLP)数据集上评估FineFormer。实验结果表明,FineFormer始终优于最先进的基线,特别是在捕获连续时间动态网络中的复杂、细粒度交互方面。

10.CCPoint:用于自我监督表示学习的损坏点云对比

原标题:CCPoint: Contrasting Corrupted Point Clouds for Self-Supervised Representation Learning
作者:Xiaoyang Xiao; Shaoyi Du; Zhiqiang Tian; Meiqin Liu; Xinhu Zheng
期刊:IEEE Transactions on Multimedia
出版时间:2025/09/08
摘要:自监督学习(SSL),包括主流对比学习,在不需要3D视觉中的数据注释的情况下学习视觉表示取得了显著的成功。虽然大多数对比学习方法通过随机仿射变换关注实例级信息,但它们对点云内的内在结构的关注有限。在这项工作中,我们提出了一种新的用于点云表示学习的SSL范式,称为CCPoint,它将一种新形式的数据损坏作为负增强策略。具体地,我们对具有各种损坏的输入点云进行降级,并在增强、原始和损坏的点之间进行对比学习,以学习鲁棒和有区别的表示。为了在严重退化的情况下保持点云的语义结构,在腐败分支中引入辅助重构解码器来提供额外的监督信号。我们研究了仿射变换、噪声变换、掩蔽变换和组合变换的四类腐败。与以前依赖于多模态数据或复杂网络架构的方法不同,CCPoint在三个广泛使用的数据集(ModelNet40、ScanObjectNN和ShapeNetPart)上实现了最先进的性能,具有轻量级和高效的结构,在ModelNet40和ScanObjectNN上分别达到92.4%和86.2%的顶级线性精度。

11.DATA:基于多解纠缠的开放世界半监督深度假归因对比学习

原标题:DATA: Multi-Disentanglement Based Contrastive Learning for Open-World Semi-Supervised Deepfake Attribution
作者:Ming-Hui Liu; Xiao-Qian Liu; Xin Luo; Xin-Shun Xu
期刊:IEEE Transactions on Multimedia
出版时间:2025/09/01
摘要:深度伪造归因(DFA)旨在对不同的面部操作技术进行多分类,从而减轻伪造内容对社会秩序和个人声誉的有害影响。然而,以前的方法只关注特定于方法的线索,这很容易导致过拟合,而忽略了常见伪造特征的关键作用。此外,他们很难在更实际的开放世界场景中区分不确定的小说类。为了解决这些问题,本文提出了一种创新的基于多离散角的约束线性化框架DATA,以增强开放世界半监督深度伪造属性(OSS-DFA)任务对新类的泛化能力。具体地说,由于所有生成技术都可以抽象到类似的架构中,DATA首次定义了“正交深伪基”的概念,并利用它来解开方法特定的特征,从而减少对伪造无关信息的过拟合。此外,还设计了一种增强记忆机制来辅助新类的发现和对比学习,其目的是通过实例级解纠缠来获得新类的清晰类边界。此外,为了加强特征的标准化和区分,DATA使用基底对比度损失和中心对比度损失作为上述模块的辅助。广泛的实验评估表明,DATA在OSS-DFA基准测试上实现了最先进的性能,例如,与现有方法相比,在不同的设置下,精度显著提高了2.55%/5.7%。

12.AS-GCL:图对比学习的非对称谱增强

原标题:AS-GCL: Asymmetric Spectral Augmentation on Graph Contrastive Learning
作者:Ruyue Liu; Rong Yin; Yong Liu; Xiaoshuai Hao; Haichao Shi; Can Ma
期刊:IEEE Transactions on Multimedia
出版时间:2025/09/01
摘要:图对比学习(GCL)已成为图结构数据自监督学习的首要方法。GCL通过从各种增强视图中学习鲁棒表示来减少对标记数据的依赖。然而,现有的GCL方法通常依赖于一致的随机增强,这些增强忽略了它们对谱域的固有结构的影响,从而限制了模型有效泛化的能力。为了解决这些限制,我们提出了一种称为AS-GCL的新范式,该范式将非对称谱增强用于图对比学习。典型的GCL框架由三个关键组件组成:图形数据增强、视图编码和对比度丢失。我们的方法为每个组件都引入了显著的增强。具体来说,对于数据增强,我们应用基于光谱的增强来最小化光谱变化,增强结构不变性,并减少噪声。关于编码,我们使用具有不同扩散算子的参数共享编码器来生成不同的、抗噪声的图形视图。对于对比度损失,我们引入了一个上限损失函数,该函数通过保持类内和类间距离的平衡分布来促进泛化。据我们所知,我们是第一个使用非对称编码器对光谱域的增强视图进行编码的。在不同节点级任务的八个基准数据集上的大量实验表明了该方法的优势。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐