智能体、多模态模型、注意力机制、推理能力...

 

⭕🚀 X-Coder:基于全合成任务、解决方案与测试推进竞争性编程


 
X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

详细解构 可以看lvynote repo


- 研究目标与方法创新:本研究旨在探索仅使用全合成数据训练代码大语言模型(LLMs),以在竞争性编程中实现SOTA性能,为此提出了SynthSmith这一基于特征的合成数据生成管道,通过双重验证确保任务、解决方案和测试用例的质量。
- 训练范式与核心发现:模型采用两阶段训练(SFT-then-RL),最终X-Coder-7B模型在LiveCodeBench v5上取得了62.9 avg@8的通过率;研究发现,增加独特合成任务数量能显著提升性能,且使用长链思维(CoT)解决方案和基于工具(CYaRon)的测试生成是关键成功因素。
- 性能增益与范式意义:强化学习(RL)微调带来了+4.6%的绝对性能提升,主要优化了策略而非生成新解法;这确立了全合成数据管道作为一种可扩展且强大的新范式,能有效推进代码推理并降低基准污染风险。
 
 
 
⚡ MHLA:通过令牌级多头机制恢复线性注意力的表达能力
 
MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head
 
- 研究目标与方法论:本研究旨在解决现有线性注意力方法因全局上下文坍缩导致的性能下降问题,提出了MHLA(Multi-Head Linear Attention)机制,其核心方法是通过将令牌划分为多个块,计算每个块的局部键值摘要,并利用一个可学习的系数矩阵为每个查询创建特定于块的摘要混合,从而恢复查询条件选择性。
- 理论保证与性能验证:理论证明MHLA能提高注意力矩阵的秩以增强表示能力,并通过确保块数M满足M² ≤ N来维持线性时间复杂度O(Nd²);在图像分类(DeiT, VLT)、图像生成(DiT, SANA)、视频生成(Wan2.1-1.3B)和NLP(0.3B自回归模型)等多个领域的广泛实验中,MHLA均超越其他线性注意力方法,在多项基准测试中达到或接近标准softmax注意力的性能。
- 关键成果与表达力恢复:关键性能结果包括在DeiT-S上实现81.0%的Top-1准确率,将DiT-S/2的FID从89.72降至59.80,在视频生成中获得2.1倍推理加速,并在MMU和LongBench上取得同类高效模型中的最高分;实证测量证实MHLA成功恢复了高秩、低熵的注意力矩阵,有效缓解了全局上下文坍缩,无需计算量大的辅助模块即可恢复多样且聚焦的注意力模式。
 
 
 


⭕👶 BabyVision:超越语言的视觉推理


 
BabyVision: Visual Reasoning Beyond Language
 
- 核心问题与假设:研究揭示了当前最先进的多模态大语言模型(MLLMs)在无需语言的基础视觉推理任务上表现不佳,远逊于幼儿,其核心假设是这些模型缺乏人类在幼年时期发展的前语言视觉基元。
- 方法论与关键发现:为此,研究创建了BabyVision基准测试,包含388个项目,旨在评估独立于语言的核心视觉能力;实证结果显示,成年人类准确率高达94.1%,而表现最佳的MLLM(Gemini3-Pro-Preview)准确率仅为49.7%,多数模型表现低于3岁儿童的平均水平。
- 核心局限与未来方向:研究将失败归因于“语言化瓶颈”,即模型将丰富的视觉信息压缩为有损的语言表征,丢弃了推理所需的几何与感知细节;同时提出的BabyVision-Gen生成范式虽具潜力但准确率仍低(18.3%),这挑战了领域需超越单纯扩展语言模型,转向能保持高保真视觉推理的架构创新


 
MLLMs与人类在BabyVision基准上的性能对比
 
(柱状图显示:成人准确率最高,Gemini3-Pro-Preview、GPT-5、Doubao-34B、Qwen3-VL-735R-Thin、3岁儿童依次降低)
 
 


 
🔍 观察、推理与搜索:面向智能体视频推理的开放网络视频深度研究基准


 


Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
 
- 研究目标与核心假设:本研究旨在通过构建新颖的VideoDR基准,系统评估多模态大语言模型在需要结合视频多帧线索与开放网络搜索进行多跳推理的Video Deep Research任务上的能力,其核心假设是现有基准低估了视频作为主要线索来源的价值


- 方法论与关键发现:研究通过构建包含100个高质量样本的VideoDR基准,并对比Workflow(两阶段)与Agentic(端到端)两种范式,发现Agentic范式并非总是优于Workflow,其优势取决于模型维持目标导向一致性的能力,而目标漂移和长时程一致性是视频研究智能体面临的核心瓶颈。
- 研究意义与启示:该研究揭示了视频推理中的根本性挑战,并指出架构选择应基于模型能力;其提出的VideoDR基准为衡量视频驱动的开放网络推理进展提供了重要工具
 
视频深度研究中工作流与智能体范式的对比流程图
 
- Workflow(两阶段):视频处理 → 生成摘要 → 保存记忆 → 推理开始 → 判断是否需要搜索 → 网络检索/输出答案 → 继续推理
- Agent(端到端):接收输入 → 初始理解 → 判断是否需要搜索 → 搜索/直接判断证据是否足够 → 思考整合 → 维护状态 → 输出答案
- 核心对比:Workflow优势在于稳定记忆,Agent挑战在于状态维护,两者核心差异在于目标一致性。
 
 
 
🧠 PaCoRe:通过并行协调推理学习扩展测试时计算
 
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
 
- 核心框架与方法创新:论文提出了PaCoRe框架,通过并行协调推理和多轮消息传递机制,将测试时计算(TTC)的扩展与上下文窗口限制解耦,并采用结合并行探索与消息压缩的推理流程以及基于大规模结果的强化学习进行训练。
- 关键训练技术与性能突破:研究采用两阶段RL课程在精心策划的数据集上训练模型,使其学会从多条推理路径中合成信息,而非简单聚合答案;最终PaCoRe-8B模型在将有效TTC扩展至约200万token时,取得了94.5%(HMMT 2025)和78.4%(IMO AnswerBench)的最先进(SOTA)性能。
- 验证发现与广泛影响:消融实验证实并行扩展优于序列扩展,且消息传递对无界扩展至关重要;训练成功赋予了模型真正的合成能力,表现为涌现正确率的上升;研究证明了较小模型可通过大规模TTC扩展与前沿系统竞争,合成是可学习的技能,并提供了开源的并行推理研究框架。
 
PaCoRe并行协调推理框架工作流程图
 
轮数控制 → 输入问题 → 多轮推理循环(推理轮 → 并行推理 → 压缩消息 → 传递到下轮) → 最终轮 → 输出答案
核心模块包含:推理器、压缩器、协调器
 
 
 
⚡ GlimpRouter:通过瞥见思维令牌实现高效协同推理
 
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
 
- 研究目标与核心洞察:为应对大型推理模型(LRMs)的高计算成本,本研究提出了一种无需训练的协同推理框架,其核心洞察在于发现推理步骤的难度可以通过其首个令牌的熵(H_init)来预测,该熵呈现双峰分布,能有效区分常规与复杂步骤。
- 核心方法:GlimpRouter采用“探测-调度”框架,由小模型仅生成每个推理步骤的第一个令牌,若其熵超过阈值,则将该步骤调度给大模型完成,从而消除了其他协同方法中全步骤生成或验证的开销,实现了更高效的动态计算分配。
- 实验效果与意义:在数学、常识和代码生成等多个基准测试中,GlimpRouter均优于基线协同策略,在AIME25上相比独立大模型实现了10.7%的准确率提升和25.9%的延迟降低,为仅将重型计算资源分配到由最小单令牌探针识别的关键认知节点提供了高效机制。
 
 


 
⭕💻 OS-Symphony:一个用于鲁棒且通用的计算机使用智能体的整体框架

 


 
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
 
- 研究目标与解决方案:为克服当前Computer-Using Agents(CUAs)在处理长而复杂的任务及适应未见过的软件环境方面的局限

本研究提出了一个名为OS-Symphony的整体框架,其核心是一个Orchestrator,负责协调具备里程碑驱动自我纠正能力的Reflection-Memory Agent和一套Versatile Tool Agents。
- 核心方法与关键结果:该框架通过Orchestrator解释任务并选择动作,同时利用Multimodal Searcher等工具进行主动浏览器导航以检索外部知识;在OSWorld、WindowsAgentArena和MacOSArena三个基准测试中,OS-Symphony取得了65.84%的最新最高成功率,并在跨平台任务上显著优于现有方法。
- 组件效能与影响局限:消融研究证实了Multimodal Searcher(相比纯文本搜索带来超过10%的性能增益)和Reflection-Memory Agent(在长流程工作中带来约20%增益)的关键价值,该工作验证了以视觉为中心的多智能体协作方法对鲁棒GUI自动化的有效性,但也指出了高延迟、细微视觉感知错误及严格伦理保障的必要性等潜在局限。
 
 


 
⭕🌀 MegaFlow:面向智能体时代的大规模分布式编排系统

 


 
MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era
 
- 研究目标与意义:为应对智能体时代的关键基础设施缺口,本研究旨在开发一个用于大规模训练和评估AI智能体在复杂任务上的系统,以克服管理海量智能体-环境交互的编排瓶颈。
- 核心方法与系统创新:提出了一个由Model、Agent、Environment三个服务组成的架构,支持独立扩展,并采用事件驱动的“多小实例”方法及双临时/持久执行模型,以实现高效编排。
- 系统评估与关键成果:基于超过200万任务的生产级数据验证,MegaFlow展现出卓越的可扩展性(支持10,000个并发实例)、在2000任务时实现32%的成本降低、稳定的执行时间与可预测的低资源利用率,并成功支持了大规模智能体强化学习。
 
 


 
🎨 通过解耦表征对齐提升潜在扩散模型
 
Boosting Latent Diffusion Models via Disentangled Representation Alignment
 
- 研究目标与方法创新:本研究旨在明确提升潜在扩散模型(LDMs)性能的变分自编码器(VAE)关键特性,提出语义解耦的VAE(Send-VAE),通过非线性映射网络和噪声注入技术,将训练VAE的潜在空间与视觉基础模型(如DINOV3)的语义层次进行对齐。
- 核心发现与性能突破:研究发现,VAE的语义解耦程度(通过属性预测的线性探测衡量)与下游扩散模型的图像生成质量(FID)呈强正相关;基于Send-VAE训练的可扩展插值变换器(SiT)在ImageNet 256x256生成任务上取得了1.21(有引导)和1.75(无引导)的创纪录FID分数,且仅需80个训练周期即可高效收敛。
- 研究意义与设计原则:本研究为生成模型的Tokenizer设计提供了新原则,即显式优化VAE以实现语义解耦,并提出了属性预测线性探测作为其内在评估指标。
 
 


 
🧩 可控内存使用:在长期人机交互中平衡锚定与创新

 


 
Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction
 
- 核心问题与解决方案:针对现有LLM智能体在长期交互中采用“全有或全无”的记忆方式,导致记忆锚定(过度依赖历史)或上下文利用不足的问题,本文提出了Steerable Memory Agent(SteeM)框架,将记忆依赖建模为一个用户可控的显式维度,允许在全新开始模式和高保真模式之间动态调整。
- 关键方法与核心发现:通过合成数据管道模拟长期交互(研究与辅导场景),开发了Memory-Dependence Metric(MD-Score),并利用监督微调和强化学习(GRPO)训练SteeM,使其响应与用户指定的依赖偏好对齐;实验证实,当前LLM(如Qwen3, GPT-5)默认具有高记忆依赖性(MD-Score 4-5),而SteeM显著降低了对齐误差(δ_align)(例如,Qwen3-8B从1.57降至1.13),在不损害响应质量(奖励模型评分证明)的前提下实现了精确的用户控制。
- 主要影响与范式转变:这项工作通过提供动态平衡一致性与创新性的机制,使用户能够在长期协作中被赋能,将范式从静态的记忆检索转向影响感知的使用。
 
 


 
🚗 DrivingGen:自动驾驶生成式视频世界模型的综合基准

 


 
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
 
- 研究目标与解决方案:针对自动驾驶领域生成式视频世界模型缺乏严谨评估基准的问题,提出了DrivingGen这一综合基准,它结合了多样化的评估数据集和一套新颖的多维度评估指标。
- 基准设计与评估维度:该基准包含400个样本,分为Open-Domain Track和Ego-Conditioned Track两个赛道,其评估指标超越了通用视频指标,从分布相似性、视觉/轨迹质量、时序一致性、轨迹对齐度四个关键维度进行全面评估。
- 核心发现与研究启示:对14个模型的评估揭示了通用模型与专用模型在视觉质量和轨迹合理性之间存在明显权衡,且轨迹对齐仍是重大挑战;DrivingGen为未来模型发展提供了诊断性框架,并指出了扩展数据集、评估闭环性能等未来方向。
 
 


 
🤔 用户未言明之处:欠明确的查询限制视觉语言模型
 
What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
 
- 研究问题与方法:本研究通过构建HAERAE-Vision基准(包含653个来自转国在线社区的真实世界视觉问题及其显式改写),探究了欠明确查询对视觉语言模型性能的限制。
- 核心发现:性能差距与改进途径:研究发现,即使是GPT-5、Gemini 2.5 Pro等先进模型,在原始欠明确查询上的准确率也低于50%,而将查询显式化能带来8至22个百分点的性能提升,且小型模型受益最大。
- 结论与启示:研究结论表明,VLM的困难很大程度上源于自然查询的欠明确性,而非单纯的模型能力限制;同时,网络搜索无法有效弥补用户未言明的信息,这揭示了基准测试与现实部署之间的关键差距,并指向了开发更现实的基准和交互式澄清界面的必要性。
 
 


 
🛠️ ET-Agent:通过行为校准激励有效的工具集成推理智能体


 
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
 
- 研究问题与核心目标:针对现有基于LLM的工具集成推理(Tool-Integrated Reasoning, TIR)智能体训练过度关注答案准确性而忽视行为模式校准,导致冗余或不足的工具调用等低效行为的问题,本研究提出了ET-Agent框架,旨在系统性地校准这些错误行为并探索最优推理轨迹。
- 核心方法论:该方法论包含两大核心部分:首先,通过自演化数据飞轮(Self-evolving Data Flywheel)迭代生成并优化推理轨迹,构建高质量增强数据集以扩展模型探索能力;其次,采用两阶段行为校准训练,先对基础模型进行微调,再通过结合分组帕累托采样(Group-wise Pareto Sampling)与平衡正确性、格式和效率的多目标奖励的课程强化学习,逐步将行为校准至最优轨迹。
- 评估结果与贡献:在六个具有挑战性的数学和知识密集型任务上的评估表明,ET-Agent在正确性(60.1)和效率(46.0)上均取得了最先进的平均分数,并在简洁性、工具执行成功率等行为指标上领先,验证了其有效的行为校准能力,为开发既准确又高效可靠的TIR智能体提供了实用路径。
 
 


 
📢 迷失于噪声之中:推理模型如何因上下文干扰物而失效
 
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors
 
- 研究问题与核心发现:研究通过NoisyBench框架评估发现,现代推理与智能体模型在面对现实上下文噪声时表现脆弱,性能最高下降80%,且智能体工作流会因过度信任噪声工具输出而放大错误。
- 现有解决方案的局限与有效新方法:包括高级提示工程、监督微调和结果奖励强化学习在内的标准鲁棒性策略均告失败,而新提出的Rationale-Aware Reward(RARE)强化学习方法通过激励模型在噪声中正确识别有用信息,显著提升了鲁棒性。
- 关键洞察与总体启示:研究揭示了逆向计算缩现象(即增加思维链等测试时计算反而表现更差),并通过注意力可视化证实模型会不成比例地关注干扰词元;这些发现强调,必须在嘈杂的真实世界上下文中专门对AI系统进行基准测试和训练,才能构建稳健的推理智能体。
 
 
 
🔤 超越硬掩码:扩散语言模型的渐进式令牌演化
 
Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models
 
- 研究目标与方法创新:为克服Masked Diffusion Language Models(MDLMs)中硬二进制掩码的限制,本研究提出了EvoToken-DLM,其核心方法创新在于用渐进式令牌演化([MASK] → Soft([MASK] ∪ V) → Soft(V) → [Decode])取代硬掩码,实现了基于软令牌分布的连续、可修订的解码过程。
- 训练策略与实验结果:研究采用了Continuous Trajectory Supervision训练策略,通过模拟连续细化步骤并在每一步施加损失,使优化目标与迭代推理行为直接对齐;实验表明,该方法在多项推理基准测试中(如在LLaMA-Instruct-8B上,Countdown提升+17.45%,GSM8K提升+3.08%)持续优于强MDLM基线,且消融研究证实了所提出的中间软状态的必要性。
- 效率、通用性与意义:该方法设计兼容KV-caching等效率技术,仅增加约3.55%的延迟开销,并能良好泛化至不同模型架构(标准与块状扩散)及多种预训练骨干网络;尽管在具有强自回归先验的模型上应用存在挑战,但本工作展示了一种通用的扩散语言模型架构增强方案,通过更好对齐的迭代细化提升了推理质量。
 
 

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐