训练数据相关

  • FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark (https://arxiv.org/abs/2509.09680): 针对当前文生图模型缺乏大规模、侧重推理的数据集和评测基准的问题,提出了包含6百万图像和2千万描述的FLUX-Reason-6M数据集,并设计了包含七个track的PRISM-Bench评测基准。该数据集和基准旨在促进下一代面向推理的文生图模型的发展。
  • Visual Grounding from Event Cameras (https://arxiv.org/abs/2509.09584): 针对事件相机与自然语言理解结合的空白,提出了Talk2Event,一个大规模的、基于语言驱动的物体定位基准。该基准包含5567个场景、13458个标注物体和超过30000个表达式,并包含外观、状态、与观察者的关系以及与周围物体的关系等属性。旨在推进多模态和时序感知的感知能力,可应用于机器人、人机交互等领域。
  • Fine-Grained Customized Fashion Design with Image-into-Prompt benchmark and dataset from LMM (https://arxiv.org/abs/2509.09324): 提出了利用大模型通过图像到提示词的方式,自动创建和精细定制服装设计的BUG工作流程。并提出了FashionEdit数据集,模拟真实服装设计流程。
  • Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis (https://arxiv.org/abs/2509.09254): 针对牙科领域缺乏专业多模态基准和指令数据集的问题,提出了MMOral,一个大规模的牙科全景X射线多模态指令数据集和基准。包含20563张带注释的图像和130万个指令实例,涵盖属性提取、报告生成、视觉问答和图像对话等任务。同时提出了OralGPT模型,通过在MMOral上进行监督微调,显著提高了模型性能。
  • Target-oriented Multimodal Sentiment Classification with Counterfactual-enhanced Debiasing (https://arxiv.org/abs/2509.09160): 研究了目标导向的多模态情感分类,提出了一种基于反事实增强的去偏框架,以减少文本内容过度依赖和数据集偏差。通过反事实数据增强策略生成细节匹配的图像-文本样本,引导模型关注与情感相关的内容,并通过自适应去偏对比学习机制减轻偏差词的影响。
  • Video Understanding by Design: How Datasets Shape Architectures and Insights (https://arxiv.org/abs/2509.09151): 本文从数据集驱动的角度,探讨了视频理解领域数据集如何引导架构演变。重新解释了里程碑式的工作,如双流和3D CNN到序列、Transformer和多模态基础模型,作为对数据集驱动的压力的具体回应。 总结了数据集如何通过运动复杂性、时间跨度、分层组合和多模态丰富性来施加模型应该编码的归纳偏置。

Agent相关

  • Sensible Agent: A Framework for Unobtrusive Interaction with Proactive AR Agents (https://arxiv.org/abs/2509.09255): 提出了Sensible Agent,一个用于与主动增强现实(AR)智能体进行非侵入式交互的框架。该框架基于实时多模态上下文感知,动态调整“提供什么”帮助以及“如何”传递帮助,利用以自我为中心的相机、多模态感知和大型多模态模型(LMM)来推断上下文,并通过最小限度侵入的交互模式传递建议的操作。
  • AI Reasoning for Wireless Communications and Networking: A Survey and Perspectives (https://arxiv.org/abs/2509.09193): 综述了人工智能推理在无线通信网络中的应用,重点关注大语言模型(LLM)和其他先进推理范式。LLM驱动的智能体可以将推理与长期规划、记忆、工具利用和自主跨层控制相结合,从而以最少的人工干预动态优化网络操作。

大模型的行业应用

  • Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift (https://arxiv.org/abs/2509.09397): 提出了一种结构化的特征解耦框架DRiFt,该框架利用参数高效的微调技术(LoRA)和可学习的提示token,将临床相关信号与任务无关的噪声显式分离。通过生成高质量的、临床相关的图像-文本对,增强跨模态对齐并减少不确定性,从而提高模型在分布内和分布外的性能。应用于医疗领域。
  • Dynamic Structural Recovery Parameters Enhance Prediction of Visual Outcomes After Macular Hole Surgery (https://arxiv.org/abs/2509.09227): 提出将动态结构参数整合到多模态深度学习(DL)框架中,用于预测特发性全层黄斑裂孔(iFTMH)患者术后视觉恢复情况。该方法利用公共的纵向OCT数据集,通过阶段特异性分割模型和自动流程提取定量、复合、定性和动态特征,并构建多模态DL模型,提高了预测准确性。

文生图/文生视频

  • Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis (https://arxiv.org/abs/2509.09595): 提出了Kling-Avatar,一种新颖的级联框架,将多模态指令理解与照片级真实感的头像生成相结合。该方法采用两阶段流水线:第一阶段,多模态大语言模型(MLLM)导演生成以多样化指令信号为条件的蓝图视频,从而控制角色运动和情感等高层语义;第二阶段,在蓝图关键帧的指导下,使用首尾帧策略并行生成多个子剪辑。
  • VQualA 2025 Challenge on Visual Quality Comparison for Large Multimodal Models: Methods and Results (https://arxiv.org/abs/2509.09190): 本文总结了ICCV 2025 Workshop on Visual Quality Assessment 中的 VQualA 2025 Challenge。该挑战旨在评估和提高大型多模态模型(LMM)在多个图像中执行关于视觉质量差异的开放式和详细推理的能力。 为此,该比赛引入了一个新颖的基准,该基准包括数千个从粗到细粒度的视觉质量比较任务,涵盖单个图像、图像对和多图像组。

底层模型架构

  • Image Recognition with Vision and Language Embeddings of VLMs (https://arxiv.org/abs/2509.09311): 评估了双编码器视觉-语言模型(VLM)的语言引导和纯视觉图像分类能力。分析了影响准确性的关键因素,包括提示设计、类别多样性、k-NN中的邻居数量和参考集大小。结果表明,语言和视觉具有互补优势,并提出了一种基于每类精度的简单、免学习融合方法,以提高分类性能。
  • Visual Programmability: A Guide for Code-as-Thought in Chart Understanding (https://arxiv.org/abs/2509.09286): 针对图表理解任务,提出了一种Code-as-Thought (CaT) 方法,以可验证的符号格式表示图表的视觉信息。引入了Visual Programmability,一种可学习的属性,用于确定图表问题对是否更适合用代码或直接视觉分析来解决。 实现了一个自适应框架,其中VLM学习在CaT路径和直接视觉推理路径之间进行选择,并通过强化学习训练模型的选择策略。
  • DATE: Dynamic Absolute Time Enhancement for Long Video Understanding (https://arxiv.org/abs/2509.09263): 针对多模态大语言模型(MLLM)在长视频理解中存在时间推理和事件定位的挑战,提出了一种动态绝对时间增强(DATE)方法。通过时间戳注入机制(TIM)和语义引导的时间感知相似性采样(TASS)策略来增强MLLM的时间感知能力。
  • EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs (https://arxiv.org/abs/2509.09174): 针对语音到语音大型语言模型(SLLM)在知识和推理能力方面存在的不足,提出了EchoX,通过利用语义表示并动态生成语音训练目标,弥合特征表示空间中的声学-语义差距。该方法集成了声学和语义学习,使EchoX能够在作为语音LLM的同时保持强大的推理能力。
  • A Knowledge Noise Mitigation Framework for Knowledge-based Visual Question Answering (https://arxiv.org/abs/2509.09159): 针对知识型视觉问答(KB-VQA)中存在知识冗余和噪声的问题,提出了一种无需训练的知识聚焦框架。通过从图像-问题对中提取关键部分,创建低噪声查询,增强相关知识的检索,并利用大型模型识别和提取知识中对回答问题有益的部分。

编辑精选

  • FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark (https://arxiv.org/abs/2509.09680): 数据集规模巨大,侧重于推理能力,对文生图领域具有重要价值。
  • SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning (https://arxiv.org/abs/2509.09674): 将强化学习应用于VLA模型,有效降低了对大规模数据的依赖,并提高了泛化能力。
  • Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis (https://arxiv.org/abs/2509.09254): 填补了牙科AI领域的空白,提供了一个高质量的多模态基准和指令数据集,并提出了OralGPT模型,具有重要的临床应用潜力。
  • OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning (https://arxiv.org/abs/2509.09332): 该工作在具身智能领域具有重要意义,通过引入任务自适应的3D grounding机制和具身感知的推理框架,提高了具身智能体的推理和规划能力,使其能够更好地适应真实世界的任务需求。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐