多模态大模型研究每日简报【2025-09-26】
Nova框架实现单GPU实时服务Agentic视觉语言模型,VC-Agent则加速定制视频数据集收集。Meta-Memory通过LLM增强机器人空间推理能力。模型预训练方面,SciReasoner培养科学推理能力,Sigma优化手语理解。数据方面,TABLET提供大规模视觉表格数据集,ArchGPT构建建筑领域专业数据集。行业应用中,语义通信框架减少交通监控数据传输,Decipher-MR提升3D
·
Agent相关
- Nova: Real-Time Agentic Vision-Language Model Serving with Adaptive Cross-Stage Parallelization (https://arxiv.org/abs/2509.21301): 提出Nova框架,用于在单GPU上实时服务Agentic视觉语言模型(VLM)。通过在VLM的视觉编码、LLM预填充和LLM解码阶段实现流水线并行,并结合自适应资源调度算法,Nova能够在动态请求负载下保持响应性和资源效率。此外,还设计了一种轻量级的权重卸载策略,以减轻GPU内存压力。实验表明,Nova在延迟和吞吐量方面均优于现有方法。
- VC-Agent: An Interactive Agent for Customized Video Dataset Collection (https://arxiv.org/abs/2509.21291): 提出了VC-Agent,一个交互式Agent,能够理解用户的查询和反馈,并据此检索和扩展相关的视频片段,从而加速定制视频数据集的收集过程。该Agent利用多模态大语言模型连接用户需求与视频内容,并提出了两种新的过滤策略,能够在用户交互过程中不断更新。
- Human-like Navigation in a World Built for Humans (https://arxiv.org/abs/2509.21189): 提出了ReasonNav,一个模块化的导航系统,集成了人类在陌生环境中导航时使用的技能,如阅读标志和向他人询问方向。该系统利用视觉语言模型(VLM)的推理能力,通过基于导航地标的紧凑输入和输出抽象,使VLM能够专注于语言理解和推理,从而在大型复杂建筑物中高效导航。
- Teaching RL Agents to Act Better: VLM as Action Advisor for Online Reinforcement Learning (https://arxiv.org/abs/2509.21126): 提出VARL,一个利用视觉语言模型(VLM)的领域知识为强化学习Agent提供动作建议的框架。与以往方法不同,VARL直接提供动作建议,而非设计启发式奖励,保证了最优性和收敛性不变。建议的动作增加了样本多样性,提高了样本效率,尤其是在稀疏奖励任务中。
- Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution (https://arxiv.org/abs/2509.21072): 提出了Recon-Act,一个基于侦察-行动行为范式的自进化多Agent框架,用于智能浏览器使用。该系统包括一个侦察团队和一个行动团队,前者进行比较分析和工具生成,后者处理意图分解、工具编排和执行。通过对比错误轨迹和成功轨迹,侦察团队推断补救措施,并将其抽象为广义工具,实时注册到工具档案中。
- Meta-Memory: Retrieving and Integrating Semantic-Spatial Memories for Robot Spatial Reasoning (https://arxiv.org/abs/2509.20754): 提出了Meta-Memory,一个由大型语言模型(LLM)驱动的Agent,用于构建环境的高密度记忆表征。该Agent能够通过联合推理语义和空间模态来检索和整合相关记忆,从而增强机器人在复杂环境中的空间推理能力。
模型预训练相关
- SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines (https://arxiv.org/abs/2509.21320): 提出了一个科学推理基础模型,该模型将自然语言与异构科学表示对齐。该模型在包含科学文本、纯序列和序列-文本对的206B token语料库上进行预训练,然后通过SFT、冷启动引导和强化学习进行对齐,从而培养严谨的科学推理能力。
- Sigma: Semantically Informative Pre-training for Skeleton-based Sign Language Understanding (https://arxiv.org/abs/2509.21223): 提出了Sigma,一个统一的基于骨骼的SLU框架,具有:1)一个符号感知的早期融合机制,促进视觉和文本模态之间的深度交互,用语言环境丰富视觉特征;2)一个分层对齐学习策略,共同最大化来自不同模态的配对特征在不同层次上的一致性,有效捕获细粒度细节和高层次语义关系;3)一个统一的预训练框架,结合了对比学习、文本匹配和语言建模,以提高语义一致性和泛化性。
训练数据相关
- TABLET: A Large-Scale Dataset for Robust Visual Table Understanding (https://arxiv.org/abs/2509.21205): 提出了TABLET,一个大规模VTU数据集,包含400万个示例,涵盖20个任务,基于200万个独特的表格,其中88%保留了原始可视化效果。每个示例都包括配对的图像-HTML表示、全面的元数据和可追溯到源数据集的出处信息。
- ArchGPT: Understanding the World’s Architectures with Large Multimodal Models (https://arxiv.org/abs/2509.20858): 提出了ArchGPT,一个多模态建筑视觉问答(VQA)模型,以及一个可扩展的数据构建pipeline,用于策划高质量、特定于建筑的VQA注释。该pipeline生成Arch-300K,一个领域专业数据集,包含约315,000个图像-问题-答案三元组。
- CaTS-Bench: Can Language Models Describe Numeric Time Series? (https://arxiv.org/abs/2509.20823): 提出了CaTS-Bench,第一个大规模、真实世界的上下文感知时间序列captioning基准。CaTS-Bench源自11个不同的数据集,被重新定义为captioning和问答任务,包含大约465k个训练和105k个测试时间戳。每个样本都包括一个数字序列段、上下文元数据、折线图图像和一个caption。
- Fin-APT: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos (https://arxiv.org/abs/2509.20961): 提出了Fin-APT,一个包含470个公开可用的金融咨询视频的数据集,用于稳健的多模态研究。
大模型的行业应用
- Semantic Edge-Cloud Communication for Real-Time Urban Traffic Surveillance with ViT and LLMs over Mobile Networks (https://arxiv.org/abs/2509.21259): 提出了一种语义通信框架,用于减少实时城市交通监控中的数据传输开销。该方法使用YOLOv11检测感兴趣区域(RoI),裁剪相关图像片段,并使用Vision Transformer(ViT)将其转换为紧凑的嵌入向量。这些嵌入被传输到云端,在那里图像解码器重建裁剪的图像,并由多模态LLM处理以生成交通状况描述。
- Decipher-MR: A Vision-Language Foundation Model for 3D MRI Representations (https://arxiv.org/abs/2509.21249): 提出了Decipher-MR,一个3D MRI特定的视觉语言基础模型,在包含来自超过22,000项研究的200,000个MRI序列的大规模数据集上进行训练,涵盖不同的解剖区域、序列和病理。Decipher-MR集成了自监督视觉学习和报告引导的文本监督,以构建稳健的、可泛化的表示,从而能够有效地适应广泛的应用。
- Automotive-ENV: Benchmarking Multimodal Agents in Vehicle Interface Systems (https://arxiv.org/abs/2509.21143): 提出了Automotive-ENV,第一个专为车辆GUI量身定制的高保真基准和交互环境。该平台定义了185个参数化任务,涵盖显式控制、隐式意图理解和安全感知任务,并提供结构化的多模态观察,以及用于可重复评估的精确编程检查。
- GALAX: Graph-Augmented Language Model for Explainable Reinforcement-Guided Subgraph Reasoning in Precision Medicine (https://arxiv.org/abs/2509.20935): 提出了GALAX,一个创新的框架,通过由图过程奖励模型(GPRM)引导的强化学习,将预训练的图神经网络(GNN)集成到大型语言模型(LLM)中。GPRM生成疾病相关的子图,由LLM逐步启动,并由预训练的GNN迭代评估,从而实现过程级别的监督,而无需明确的中间推理注释。
- Revolutionizing Precise Low Back Pain Diagnosis via Contrastive Learning (https://arxiv.org/abs/2509.20813): 提出了LumbarCLIP,一个新颖的多模态框架,利用对比语言-图像预训练来对齐腰椎MRI扫描与相应的放射学描述。LumbarCLIP提供了一个有希望的自动化肌肉骨骼诊断和临床决策支持的基础。
- Provenance Analysis of Archaeological Artifacts via Multimodal RAG Systems (https://arxiv.org/abs/2509.20769): 提出了一个基于检索增强生成(RAG)的系统,用于考古文物的出处分析,旨在通过整合多模态检索和大型视觉语言模型(VLM)来支持专家推理。
训练策略
- Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization’s Impact on CLIP Beyond Accuracy (https://arxiv.org/abs/2509.21173): 对量化对CLIP模型的影响进行了大规模评估,不仅评估了分布内的准确性,还评估了一套全面的可靠性指标,揭示了由预训练来源驱动的反直觉结果。研究表明,量化可以持续提高通常欠自信的预训练模型的校准,同时通常会降低过度自信的模型的校准。
- SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization (https://arxiv.org/abs/2509.21033): 提出支持向量正则化(SVR),一种引入辅助支持向量以控制该垂直分量的方法,旨在利用其丰富的信息,同时减轻相关的轨迹漂移。
- Shaping Initial State Prevents Modality Competition in Multi-modal Fusion: A Two-stage Scheduling Framework via Fast Partial Information Decomposition (https://arxiv.org/abs/2509.20840): 介绍了一种两阶段训练框架,通过在联合训练之前进行单模态训练来塑造初始状态。首先,提出了有效竞争强度(ECS)的概念来量化模态的竞争强度。此外,开发了一个框架,包括两个核心组件:一个细粒度的可计算诊断指标和一个异步训练控制器。
- DAC-LoRA: Dynamic Adversarial Curriculum for Efficient and Robust Few-Shot Adaptation (https://arxiv.org/abs/2509.20792): 提出了动态对抗课程DAC-LoRA,一个将对抗训练集成到PEFT中的新颖框架。DAC-LoRA在不显著损害干净准确性的情况下,实现了对抗鲁棒性的显著提高。
Benchmark
- SoM-1K: A Thousand-Problem Benchmark Dataset for Strength of Materials (https://arxiv.org/abs/2509.21079): 介绍了SoM-1K,第一个大规模多模态基准数据集,专门用于评估材料强度(SoM)问题的基础模型。该数据集包含1,065个带注释的SoM问题,通过包括文本问题陈述和示意图来反映真实世界的工程任务。
- Roadwork-VLM: A new benchmark based on complex Roadwork construction scenarios to rigorously evaluate zero-shot generalization. (https://arxiv.org/abs/2509.20843) 介绍了一个基于复杂路面施工场景的新基准测试,以严格评估零样本泛化。
- SpaceLocQA: a large-scale dataset encompassing diverse real-world spatial question-answering scenarios.(https://arxiv.org/abs/2509.20754) 介绍了SpaceLocQA,一个包含各种真实世界空间问答场景的大规模数据集。
文生图/文生视频
- NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics (https://arxiv.org/abs/2509.21309): 提出了NewtonGen,一个将数据驱动合成与可学习物理原理相结合的框架,以实现物理一致且可控的文本到视频生成。其核心是可训练的神经牛顿动力学(NND),可以建模和预测各种牛顿运动,从而将潜在的动力学约束注入到视频生成过程中。
- Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets (https://arxiv.org/abs/2509.21245): 提出了Hunyuan3D-Omni,一个用于细粒度、可控3D资产生成的统一框架,构建于Hunyuan3D 2.1之上。除了图像之外,Hunyuan3D-Omni还接受点云、体素、边界框和骨骼姿势先验作为调节信号,从而能够精确控制几何体、拓扑和姿势。
模型安全
- Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation (https://arxiv.org/abs/2509.21257): 提出了在T2I中将幻觉定义为偏差驱动的偏差,并提出了一个包含三个类别的分类法:属性、关系和对象幻觉。这种框架引入了评估的上限,并揭示了隐藏的偏差,为更丰富的T2I模型评估提供了基础。
- EvoMail: Self-Evolving Cognitive Agents for Adaptive Spam and Phishing Email Defense (https://arxiv.org/abs/2509.21129): 提出了EvoMail,一个用于稳健检测垃圾邮件和网络钓鱼的自进化认知Agent框架。EvoMail首先构建一个统一的异构电子邮件图,融合了文本内容、元数据(标题、发件人、域名)和嵌入的资源(URL、附件)。认知图神经网络通过在这些来源中进行上下文感知的推理来识别协调的垃圾邮件活动。
- FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction (https://arxiv.org/abs/2509.21029): 提出了一种特征过度依赖校正(FORCE)方法,该方法引导攻击探索跨层特征的更广泛可行区域,并根据其语义内容重新调整频率特征的影响。通过消除对层和频谱特征的非通用依赖,该方法发现了用于视觉越狱攻击的扁平可行区域,从而提高了跨模型的可传递性。
- A Single Neuron Works: Precise Concept Erasure in Text-to-Image Diffusion Models (https://arxiv.org/abs/2509.21008): 提出了一种基于单神经元的概念擦除(SNCE)方法,该方法可以通过仅操纵单个神经元来精确地防止有害内容的生成。SNCE实现了目标概念擦除方面的最新结果,同时保留了模型对非目标概念的生成能力。
- Poisoning Prompt-Guided Sampling in Video Large Language Models (https://arxiv.org/abs/2509.20851): 提出 PoisonVID,这是一种黑盒中毒攻击,通过闭环优化策略来破坏 VideoLLM 中的 prompt-guided 采样机制。
机器人
- AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation (https://arxiv.org/abs/2509.21006): 提出了AnywhereVLA,一个用于移动操作的模块化框架,解决了在未见过的、不可预测的室内环境中进行自然语言拾取和放置的问题。用户文本提示用作入口点,并被解析为结构化的任务图,该图调节带有LiDAR和相机的经典SLAM、度量语义映射和任务感知的前沿探索策略。
- Cross-Modal Instructions for Robot Motion Generation (https://arxiv.org/abs/2509.21107): 介绍了一种替代范例,即从跨模态指令中学习,其中机器人由粗略注释形式的演示来塑造,这些注释可以包含自由格式的文本标签,并用于代替物理运动。引入了CrossInstruct框架,该框架将跨模态指令作为示例集成到基础视觉语言模型(VLM)的上下文输入中。
其他
- VoiceBBQ: Investigating Effect of Content and Acoustics in Social Bias of Spoken Language Model (https://arxiv.org/abs/2509.21108): 介绍 VoiceBBQ,这是 BBQ (Bias Benchmark for Question Answering) 的口语扩展——这是一个通过呈现模棱两可或消除歧义的上下文,然后提出可能引发刻板印象反应的问题来衡量社会偏见的数据集。
- CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization (https://arxiv.org/abs/2509.21150): 提出了 CAD-Tokenizer,一个框架,它使用基于序列的 VQ-VAE,通过具有原始级别池化和约束解码的模态特定token来表示 CAD 数据。
- GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions (https://arxiv.org/abs/2509.21050): 介绍了几何问题参考表达式理解 (REC) 任务,该任务评估模型是否可以根据文本提示定位图中的点、形状和空间关系。
- DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning (https://arxiv.org/abs/2509.20912): 提出了 DeFacto,一种反事实推理框架,可以共同执行准确的回答和忠实的推理。
- Integrating Object Interaction Self-Attention and GAN-Based Debiasing for Visual Question Answering (https://arxiv.org/abs/2509.20884): 提出了一种新颖的模型 IOG-VQA,它集成了对象交互自注意力和基于 GAN 的去偏置,以提高 VQA 模型性能。
- Mammo-CLIP Dissect: A Framework for Analysing Mammography Concepts in Vision-Language Models (https://arxiv.org/abs/2509.21102): 引入了 Mammo-CLIP Dissect,这是第一个基于概念的可解释性框架,用于系统地剖析为乳房X光照片训练的 DL 视觉模型。
- Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos (https://arxiv.org/abs/2509.20961): FASTER 采用 BLIP 进行语义视觉描述、OCR 进行文本模式以及基于 Whisper 的转录和扬声器日志作为 BOS 功能。修改后的基于直接偏好优化 (DPO) 的损失函数配备了 BOS 特定的事实检查,可确保针对人工调整摘要的精确度、相关性和事实一致性。
编辑精选
- SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines (https://arxiv.org/abs/2509.21320): 构建科学推理基础模型对于推动AI在科学领域的应用至关重要,该模型在数据和训练方法上都进行了精心的设计,值得关注。
- VC-Agent: An Interactive Agent for Customized Video Dataset Collection (https://arxiv.org/abs/2509.21291): 随着数据规模的增长,如何高效地收集和管理数据变得越来越重要。VC-Agent通过交互式的方式,极大地简化了定制视频数据集的构建过程,具有很高的实用价值。
- DAC-LoRA: Dynamic Adversarial Curriculum for Efficient and Robust Few-Shot Adaptation (https://arxiv.org/abs/2509.20792): 该论文针对VLM的安全性问题,提出了一个高效且鲁棒的对抗训练框架,能够在few-shot场景下提升模型的鲁棒性,具有很强的实际意义。
- Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets (https://arxiv.org/abs/2509.21245): 提出了Hunyuan3D-Omni,一个用于细粒度、可控3D资产生成的统一框架,构建于Hunyuan3D 2.1之上。
更多推荐
所有评论(0)