Agent相关

  • Preacher: Paper-to-Video Agentic System (https://arxiv.org/abs/2508.09632): 提出了一个名为Preacher的论文转视频的Agentic系统,该系统采用自上而下的方法分解、总结和重新制定论文,然后进行自下而上的视频生成,将不同的视频片段合成一个连贯的摘要。通过定义关键场景,并引入渐进式思维链(P-CoT)以进行细粒度的迭代规划,从而对齐跨模态表征。
  • ChatCFD: An LLM-Driven Agent for End-to-End CFD Automation with Domain-Specific Structured Reasoning (https://arxiv.org/abs/2506.02019): 提出了ChatCFD,一个用于OpenFOAM仿真的自动化Agent系统。该系统通过交互式界面处理多模态输入(例如,研究论文、网格),利用DeepSeek-R1和DeepSeek-V3大型语言模型、多Agent架构和OpenFOAM知识。通过自动化假设测试和参数探索,ChatCFD加速了流体和工程领域的科学发现。
  • Context-Adaptive Hearing Aid Fitting Advisor through Multi-turn Multimodal LLM Conversation (https://arxiv.org/abs/2509.06382): 提出了CAFA,一个情境自适应的助听器拟合顾问,通过多Agent大型语言模型(LLM)工作流程提供个性化的实时助听器调整。
  • Multi-Agent Reasoning for Cardiovascular Imaging Phenotype Analysis (https://arxiv.org/abs/2507.03460): 介绍了一种用于心脏表型分析的多Agent探索协同框架(MESHAgents),该框架利用大型语言模型作为Agent,以动态地提取、呈现和确定关联研究中的混杂因素和表型。

大模型的行业应用

  • Leveraging Generic Foundation Models for Multimodal Surgical Data Analysis (https://arxiv.org/abs/2509.06831): 研究了如何通过迁移学习调整通用基础模型以及整合来自手术室(OR)的互补模态,以支持外科数据科学。
  • Curia: A Multi-Modal Foundation Model for Radiology (https://arxiv.org/abs/2509.06830): 介绍了Curia,一个在大型医院的整个横截面成像输出上训练的基础模型,包含15万次检查(130 TB)。
  • MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis (https://arxiv.org/abs/2509.06617): 介绍了一种新颖而高效的框架MM-DINOv2,该框架用于调整预训练的视觉基础模型DINOv2,以用于多模态医学成像。

文生图/文生视频

  • Interleaving Reasoning for Better Text-to-Image Generation (https://arxiv.org/abs/2509.06945): 介绍了一种交错推理生成(IRG)框架,该框架在基于文本的思考和图像合成之间交替进行,模型首先生成基于文本的思考以指导初始图像,然后反思结果以细化精细的细节、视觉质量和美学,同时保留语义。
  • Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training (https://arxiv.org/abs/2509.06723): 介绍了一种新颖的零样本测试时训练框架Zo3T,用于轨迹引导生成。

其他

  • HyFedRAG: A Federated Retrieval-Augmented Generation Framework for Heterogeneous and Privacy-Sensitive Data (https://arxiv.org/abs/2509.06444): 介绍了一种统一且高效的联邦RAG框架HyFedRAG,该框架专为混合数据模态定制。
  • When Language Model Guides Vision: Grounding DINO for Cattle Muzzle Detection (https://arxiv.org/abs/2509.06427): 提出了一种基于Grounding DINO的零样本口鼻检测框架,Grounding DINO是一种视觉语言模型,无需任何特定于任务的训练或注释数据即可检测口鼻。
  • Phantom-Insight: Adaptive Multi-cue Fusion for Video Camouflaged Object Detection with Multimodal LLM (https://arxiv.org/abs/2509.06422): 提出了一种基于SAM和MLLM的新型VCOD方法,称为Phantom-Insight。
  • Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models (https://arxiv.org/abs/2509.06415): 提出了一个轻量级的令牌修剪框架,该框架在VLM处理之前过滤掉文档图像中非信息性的背景区域。
  • MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation (https://arxiv.org/abs/2509.06389): 介绍了一种MeanFlow加速模型,该模型使用平均速度表征流场,从而实现单步生成,同时保持音频质量、语义对齐和时间同步。
  • LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation (https://arxiv.org/abs/2509.05263): 提出了一种简单而有效的3D世界生成框架LatticeWorld,该框架简化了3D环境的工业生产流程。
  • E-THER: A Multimodal Dataset for Empathic AI - Towards Emotional Mismatch Awareness (https://arxiv.org/abs/2509.02100): 介绍了E-THER,这是第一个以人为中心的治疗多模态数据集,具有用于言语-视觉不一致检测的多维注释。
  • Empathy Omni: Enabling Empathetic Speech Response Generation through Large Language Models (https://arxiv.org/abs/2508.18655): 提出了一种名为Emotion Omni的模型,该模型可以理解用户语音中的情感内容并生成共情响应。
  • VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models (https://arxiv.org/abs/2505.15727): 提出了VocalBench,这是一个综合基准,旨在评估语音会话能力,包括四个关键维度:语义质量、声音性能、会话能力和鲁棒性。
  • MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs (https://arxiv.org/abs/2503.13111): 利用具有开放集注释的大规模高质量3D场景数据,介绍了1)一种新颖的监督微调数据集和2)一个新的评估基准,重点关注室内场景。
  • GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving (https://arxiv.org/abs/2503.05689): 提出了一种端到端自动驾驶方法GoalFlow,用于生成高质量的多模态轨迹。
  • Generative World Explorer (https://arxiv.org/abs/2411.11844): 介绍了一种自我中心的世界探索框架 Generative   World   Explorer   (Genex) \textit{Generative World Explorer (Genex)} Generative World Explorer (Genex),该框架允许Agent在心理上探索大规模3D世界(例如,城市场景),并获取想象的观察结果以更新其信念。

编辑精选

  1. Curia: A Multi-Modal Foundation Model for Radiology (https://arxiv.org/abs/2509.06830):该论文提出了一个在大型放射影像数据集上训练的多模态基础模型,并在多个放射学任务上表现出色,具有实际应用价值,值得关注。
  2. Preacher: Paper-to-Video Agentic System (https://arxiv.org/abs/2508.09632):该论文提出了一个自动将研究论文转化为视频摘要的Agentic系统,有助于知识传播和学术交流,具有创新性和实用性。
  3. HyFedRAG: A Federated Retrieval-Augmented Generation Framework for Heterogeneous and Privacy-Sensitive Data (https://arxiv.org/abs/2509.06444):该论文提出了一个联邦RAG框架,可以在保护隐私的前提下处理异构数据,对于医疗等敏感数据领域的应用具有重要意义。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐