一、趋势

近期AI领域研究呈现三大核心趋势与多个细分热点:多模态融合持续深化,涵盖跨模态检索、生成、形式化推理等,突破单一模态局限;LLM代理(Agent)系统成为研究核心,聚焦效率优化、记忆机制、协作路由、搜索策略等关键问题,推动Agent在复杂场景落地;特定领域适配与模型可靠性并重,金融、医学、法律等高危领域的AI应用规范,以及小众语言公平性、模型可控性、真实性、效率优化成为重点攻坚方向;同时,跨学科创新方法涌现,如借鉴分子结构、物理力学、地图推理等领域思想,为AI推理、生成等任务提供全新视角。

二、分类整理

(一)多模态智能(Multimodal Intelligence)

1. 论文题目:Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
  • 作者:Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
  • 发表时间:2025年1月8日
  • arXiv地址:https://arxiv.org/abs/2601.04720
  • 摘要:Qwen3-VL-Embedding和Qwen3-VL-Reranker模型构成端到端多模态搜索流水线,通过多阶段训练和交叉注意力机制,实现跨文本、图像、文档图像、视频等多种模态的高精度检索。Qwen3-VL-Embedding采用多阶段训练范式(从大规模对比预训练到重排序模型蒸馏),支持Matryoshka表示学习和32k令牌输入;Qwen3-VL-Reranker采用交叉编码器架构,进行细粒度相关性估计。两款模型均继承Qwen3-VL的多语言能力(支持30余种语言),提供2B和8B参数版本,在MMEB-V2等基准测试中取得当前最佳结果(Qwen3-VL-Embedding-8B总分为77.8)。
2. 论文题目:MMFormalizer: Multimodal Autoformalization in the Wild
  • 作者:Jing Xiong, Qi Han, Yunta Hsieh, Hui Shen, Huajian Xin, Chaofan Tao, Chenyang Zhao, Hengyuan Zhang, Taiqiang Wu, Zhen Zhang, Haochen Wang, Zhongwei Wan, Lingpeng Kong, Ngai Wong
  • 发表时间:2025年1月6日
  • arXiv地址:https://arxiv.org/abs/2601.03017
  • 摘要:自动形式化(将自然语言数学转换为形式化陈述以支持机器推理)在真实场景中面临物理世界多模态性的挑战——物理学需从视觉元素中推断隐藏约束(如质量、能量)。为此,MMFormalizer将自动形式化扩展至文本之外,通过自适应接地整合现实世界数学和物理领域的实体,基于递归接地和公理组合从感知接地原语构建形式化命题,并通过自适应递归终止确保每个抽象都有视觉证据支持。该方法在新基准PhyX-AF(含115个来自MathVerse、PhyX等领域的样本)上评估,GPT-5和Gemini-3-Pro取得最高编译和语义准确性,其中GPT-5擅长物理推理,而几何学仍是最具挑战性的领域。这是首个能处理经典力学、相对论、量子力学和热力学的多模态自动形式化方法。
3. 论文题目:Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
  • 作者:Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05851
  • 摘要:实时多模态自动补全在依赖共享视觉上下文的数字助理、聊天机器人、设计工具和医疗咨询中至关重要。该研究提出多模态自动补全(MAC)任务,利用部分输入文本和视觉线索预测实时聊天中的后续字符,区别于传统纯文本自动补全(TAC),MAC基于多模态上下文捕捉用户意图。研究适配MMDialog和ImageChat构建基准数据集,评估主流视觉语言模型(VLMs)与强文本基线的准确性和效率权衡,并提出Router-Suggest框架——基于对话上下文动态选择文本模型和VLMs,其轻量变体适用于资源受限环境。Router-Suggest比性能最佳的VLM快2.3倍至10倍,用户研究表明VLMs在用户满意度上显著优于文本模型,节省输入成本并提升多轮对话补全质量。
4. 论文题目:Afri-MCQA: Multimodal Cultural Question Answering for African Languages
  • 作者:Atnafu Lambebo Tonja, Srija Anand, Emilio Villa-Cueva, Israel Abebe Azime, Jesujoba Oluwadara Alabi, Muhidin A. Mohamed, Debela Desalegn Yadeta, Negasi Haile Abadi, Abigail Oppong, Nnaemeka Casmir Obiefuna, Idris Abdulmumin, Naome A Etori, Eric Peter Wairagala, Kanda Patrick Tshinu, Imanigirimbabazi Emmanuel, Gabofetswe Malema, Alham Fikri Aji, David Ifeoluwa Adelani, Thamar Solorio
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05699
  • 摘要:非洲拥有全球三分之一以上的语言,但在AI研究中代表性不足。该研究推出Afri-MCQA,首个覆盖12个国家15种非洲语言的7500个问答对的多语言文化问答基准,包含文本和语音模态的平行英-非语言问答对,均由母语者创建。基准测试显示,开源LLM在各文化场景中表现不佳,用母语或语音查询时开放式视觉问答(VQA)准确率接近零。控制实验表明,文本和语音模态下母语与英语的性能差距显著,凸显了“语音优先”方法、文化接地预训练和跨语言文化迁移的必要性。Afri-MCQA已在Hugging Face开源,支持非洲语言多模态AI的包容性发展。
5. 论文题目:AnyDepth: Depth Estimation Made Easy
  • 作者:Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
  • 发表时间:2025年1月6日
  • arXiv地址:https://arxiv.org/abs/2601.02760
  • 摘要:单目深度估计旨在从2D图像中恢复3D场景的深度信息,现有方法依赖大规模数据集和复杂解码器,限制了效率和泛化能力。该研究提出轻量级、数据中心的零样本单目深度估计框架:采用DINOv3作为视觉编码器获取高质量密集特征;设计简单深度转换器(SDT)作为紧凑解码器,通过单路径特征融合和上采样过程减少跨尺度特征融合的计算开销,相比DPT参数减少85%-89%且准确率更高;提出基于质量的过滤策略,剔除有害样本,在减小数据集规模的同时提升训练质量。在五个基准测试中,该框架准确率超过DPT,凸显了模型设计与数据质量平衡对高效、可泛化零样本深度估计的重要性。
6. 论文题目:Orient Anything V2: Unifying Orientation and Rotation Understanding
  • 作者:Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05573
  • 摘要:Orient Anything V2是增强型基础模型,用于从单张或成对图像中统一理解物体3D姿态和旋转。基于V1版本(通过单一“正面”定义姿态),V2扩展至处理具有多样旋转对称性的物体并直接估计相对旋转,核心创新包括:1)生成模型合成的可扩展3D资产,确保广泛类别覆盖和均衡数据分布;2)模型在环标注系统,稳健识别每个物体0至N个有效正面;3)对称感知的周期性分布拟合目标,捕捉所有合理正面姿态,有效建模物体旋转对称性;4)直接预测物体相对旋转的多帧架构。在11个主流基准测试中,V2在姿态估计、6DoF位姿估计和物体对称识别任务上取得零样本SOTA性能,泛化能力强,拓宽了姿态估计在下游任务的适用性。
7. 论文题目:ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers
  • 作者:Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05741
  • 摘要:人脸图像质量评估(FIQA)是可靠人脸识别系统的关键。现有方法主要利用最终层表示,而无训练方法需多次前向传播或反向传播。ViTNT-FIQA提出无训练方法,通过分析视觉转换器(ViT)中间层的补丁嵌入稳定性评估质量:高质量人脸图像在各层间呈现稳定的特征细化轨迹,而退化图像表现出不稳定转换。该方法计算连续转换器块中L2归一化补丁嵌入的欧氏距离,并聚合为图像级质量分数,在受控退化水平的质量标记合成数据集上验证了相关性。ViTNT-FIQA仅需单次前向传播,无需反向传播或架构修改,在8个基准测试(LFW、AgeDB-30等)中与SOTA方法性能相当,同时保持计算效率,可直接应用于任何预训练ViT基人脸识别模型。
8. 论文题目:CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature
  • 作者:Eldad Matmon, Amit Bracha, Noam Rotstein, Ron Kimmel
  • 发表时间:2025年1月6日
  • arXiv地址:https://arxiv.org/abs/2601.03319
  • 摘要:该研究提出 photorealistic 且可控的人脸3D夸张化框架,结合基于高斯曲率的表面夸张技术与3D高斯溅射(3DGS),生成保真度高、支持实时变形的可控虚拟形象。流程包括:从多视图序列中提取FLAME网格,求解曲率加权泊松方程获得夸张形式;通过局部仿射变换将每帧扭曲为夸张2D表示,合成伪真实夸张人脸图像;设计交替使用真实和合成监督的训练方案,使单个高斯集合同时表示自然和夸张虚拟形象,支持局部编辑和夸张强度的连续控制;引入原始与夸张表面的高效插值,实现实时变形,且与闭合形式解的偏差有界。定量和定性评估表明,该方法优于现有工作,能生成几何可控的 photorealistic 夸张人脸虚拟形象。

(二)LLM代理与推理优化(LLM Agent & Reasoning Optimization)

1. 论文题目:Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
  • 作者:Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05432
  • 摘要:图像地理定位任务旨在通过视觉线索预测图像拍摄的全球位置。现有大型视觉语言模型(LVLM)方法利用世界知识、思维链推理和代理能力,但忽略了人类常用的地图辅助策略。该研究为模型赋予“地图思维”能力,构建“地图中代理”循环,提出两阶段优化方案:代理强化学习(RL)提升采样效率,并行测试时缩放(TTS)使模型在最终预测前探索多条候选路径(对地理定位至关重要)。为评估真实场景图像的性能,研究构建MAPBench基准(完全由真实世界图像组成的地理定位训练和评估数据集)。实验结果表明,该方法在多数指标上优于现有开源和闭源模型,与Google Search/Map接地模式的Gemini-3-Pro相比,Acc@500m从8.0%提升至22.1%。
2. 论文题目:Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards
  • 作者:Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li
  • 发表时间:2025年1月10日
  • arXiv地址:https://arxiv.org/abs/2601.06021
  • 摘要:强化学习(RL)是增强基于LLM的深度搜索代理的关键技术,但现有方法主要依赖二元结果奖励,无法捕捉推理过程的全面性和事实性,易导致捷径利用和幻觉等问题。为此,研究提出引用感知准则奖励(CaRR)——细粒度奖励框架,强调推理全面性、事实接地和证据关联性,将复杂问题分解为可验证的单跳准则,要求代理明确识别隐藏实体、提供正确引用支持,并构建连接预测答案的完整证据链。同时提出引用感知组相对策略优化(C-GRPO),结合CaRR和结果奖励训练稳健深度搜索代理。实验表明,C-GRPO在多个深度搜索基准上持续优于标准基于结果的RL基线,有效抑制捷径利用,促进基于证据的全面推理,并对开放式深度研究任务具有强泛化性。
3. 论文题目:EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis
  • 作者:Xiaoshuai Song, Haofei Chang, Guanting Dong, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05808
  • 摘要:LLM需在各种现实环境中训练为代理,但依赖丰富多样的工具交互沙箱。然而,真实系统访问受限、LLM模拟环境易产生幻觉和不一致、手动构建沙箱难以扩展。EnvScaler提出通过程序化合成实现工具交互环境的自动化框架,包含两大组件:SkelBuilder通过主题挖掘、逻辑建模和质量评估构建多样化环境骨架;ScenGenerator为每个环境生成多个任务场景和基于规则的轨迹验证函数。利用EnvScaler合成191个环境和约7000个场景,应用于Qwen3系列模型的监督微调(SFT)和强化学习(RL)。三个基准测试结果表明,EnvScaler显著提升LLM在多轮、多工具交互复杂环境中的任务解决能力。
4. 论文题目:Can We Predict Before Executing Machine Learning Agents?
  • 作者:Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
  • 发表时间:2025年1月10日
  • arXiv地址:https://arxiv.org/abs/2601.05930
  • 摘要:自主机器学习代理革新了科学发现,但受限于“生成-执行-反馈”范式,假设评估依赖昂贵的物理执行,存在严重的“执行瓶颈”。研究借鉴世界模型思想,通过内化执行先验,用瞬时预测推理替代昂贵的运行时检查,形式化“数据中心解决方案偏好”任务,构建包含18438个成对比较的综合语料库。实验表明,LLM在输入验证数据分析报告后表现出显著预测能力,准确率达61.5%且置信度校准稳健。基于此构建FOREAGENT代理,采用“预测-验证”循环,收敛速度提升6倍,性能比基于执行的基线高6%。
5. 论文题目:AgentOCR: Reimagining Agent History via Optical Self-Compression
  • 作者:Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An
  • 发表时间:2025年1月8日
  • arXiv地址:https://arxiv.org/abs/2601.04786
  • 摘要:LLM的进步推动了基于多轮交互轨迹强化学习(RL)训练的代理系统,但实际部署受限于快速增长的文本历史——导致令牌预算膨胀和内存占用过高。AgentOCR框架利用视觉令牌的高信息密度,将累积的观察-行动历史表示为紧凑的渲染图像。为实现多轮轨迹可扩展性,提出片段光学缓存:将历史分解为可哈希片段并维护视觉缓存,消除冗余重渲染。超越固定渲染,AgentOCR引入代理自压缩,代理主动输出压缩率,并通过压缩感知奖励训练,自适应平衡任务成功率和令牌效率。在ALFWorld和基于搜索的问答基准测试中,AgentOCR保留了95%以上的文本基代理性能,同时显著降低令牌消耗(超过50%),片段光学缓存实现20倍渲染加速。
6. 论文题目:SmartSearch: Process Reward-Guided Query Refinement for Search Agents
  • 作者:Tongyu Wen, Guanting Dong, Zhicheng Dou
  • 发表时间:2025年1月8日
  • arXiv地址:https://arxiv.org/abs/2601.04888
  • 摘要:基于LLM的搜索代理通过整合信息检索能力,在知识密集型问题中表现出潜力,但现有工作聚焦优化推理范式,忽略了推理过程中中间搜索查询的质量——生成的查询往往不准确,导致检索结果不符合预期,限制整体效能。SmartSearch框架包含两大核心机制:1)过程奖励,通过双级信用评估为每个中间搜索查询质量提供细粒度监督;2)查询优化,通过选择性优化低质量查询并基于优化结果重新生成后续搜索轮次,促进查询生成优化。设计三阶段课程学习框架,引导代理逐步内化在过程奖励指导下提升查询质量的能力(从模仿到对齐再到泛化)。实验表明,SmartSearch持续优于现有基线,定量分析证实其在搜索效率和查询质量上的显著提升。
7. 论文题目:Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning
  • 作者:Yuyang Hu, Jiongnan Liu, Jiejun Tan, Yutao Zhu, Zhicheng Dou
  • 发表时间:2025年1月8日
  • arXiv地址:https://arxiv.org/abs/2601.04726
  • 摘要:LLM日益作为智能代理部署,需推理、规划并与环境交互。为有效扩展至长时程场景,代理需具备保留、组织和检索过往经验以支持下游决策的记忆机制。现有方法多以扁平方式组织存储记忆,依赖简单相似性检索;即使引入结构化记忆,也难以明确捕捉经验或记忆单元间的逻辑关系,且记忆访问与结构脱节,依赖浅层语义检索,阻碍代理对长时程依赖的逻辑推理。CompassMem框架受事件分割理论启发,构建事件中心记忆:通过将经验增量分割为事件并通过明确逻辑关系链接,形成事件图作为“逻辑地图”,使代理能超越浅层检索,进行结构化、目标导向的记忆导航,逐步收集有价值记忆支持长时程推理。在LoCoMo和NarrativeQA基准上,CompassMem持续提升多个骨干模型的检索和推理性能。
8. 论文题目:TCAndon-Router: Adaptive Reasoning Router for Multi-Agent Collaboration
  • 作者:Jiuzhou Zhao, Chunrong Chen, Chenqi Qiao, Lebin Zheng, Minqi Han, Yanchi Liu, Yongzhou Xu, Xiaochuan Xu, Min Zhang
  • 发表时间:2025年1月8日
  • arXiv地址:https://arxiv.org/abs/2601.04544
  • 摘要:多代理系统(MAS)是构建高性能智能应用的强大范式,其中负责将查询分配给专业代理的路由器对整体性能至关重要。现有路由策略分为性能路由(平衡不同规模模型的延迟和成本)和任务路由(将查询分配给领域专家以提升准确性),企业应用中任务路由更适用,但现有方法依赖静态单标签决策,存在两大局限:业务领域扩展时难以无缝集成新代理;代理能力重叠导致路由冲突,降低准确性和稳健性。TCAndon-Router(TCAR)提出自适应推理路由器,支持动态代理接入,先生成自然语言推理链,再预测能处理查询的候选代理集合;设计协作执行流水线,选中的代理独立生成响应,由专门的优化代理聚合优化为高质量单一响应。在公开数据集和企业真实数据上的实验表明,TCAR显著提升路由准确性,减少路由冲突,在模糊场景中保持稳健性。
9. 论文题目:Distilling Feedback into Memory-as-a-Tool
  • 作者:Víctor Gallego
  • 发表时间:2025年1月10日
  • arXiv地址:https://arxiv.org/abs/2601.05960
  • 摘要:该框架通过基于文件的记忆系统和代理控制的工具调用,将瞬时批评转换为可检索指南,摊销推理时推理成本。在新构建的Rubric Feedback Bench基准数据集上评估表明,增强型LLM能快速匹配测试时优化流水线的性能,同时大幅降低推理成本。
10. 论文题目:The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
  • 作者:Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
  • 发表时间:2025年1月10日
  • arXiv地址:https://arxiv.org/abs/2601.06002
  • 摘要:LLM在长思维链(Long CoT)推理中面临不稳定结构模式的挑战,难以从人类或非长思维链LLM模仿中学习有效推理。研究提出,有效且可学习的Long CoT轨迹具有稳定的“分子样结构”,由三种交互类型构成:深度推理(类共价键)、自我反思(类氢键)、自我探索(类范德华力)。对蒸馏轨迹的分析表明,这些结构源于Long CoT微调而非关键词模仿。研究引入“有效语义异构体”,指出仅促进熵快速收敛的键支持稳定Long CoT学习,而结构竞争会损害训练。基于此提出Mole-Syn(分布转移图方法),引导有效Long CoT结构合成,提升多个基准的性能和RL稳定性。
11. 论文题目:IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck
  • 作者:Huilin Deng, Hongchen Luo, Yue Zhu, Long Li, Zhuoyue Chen, Xinghao Zhao, Ming Li, Jihai Zhang, Mengchang Wang, Yang Cao, Yu Kang
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05870
  • 摘要:基于可验证奖励的强化学习(RLVR)在LLM推理中取得进展,但受限于“探索崩溃”——随机轨迹的语义同质性使模型陷入狭窄的过度优化行为。现有方法利用策略熵鼓励探索,但存在局限:全局熵正则化易导致奖励黑客攻击(产生无意义冗余),而局部令牌选择性更新难以突破预训练模型的强归纳偏置。IIB-LPO提出通过迭代信息瓶颈实现潜在策略优化,将探索从令牌分布的统计扰动转向推理轨迹的拓扑分支:在高熵状态触发潜在分支以多样化推理路径,利用信息瓶颈原理作为轨迹过滤器和自我奖励机制,确保探索的简洁性和信息性。在四个数学推理基准上,IIB-LPO取得SOTA性能,准确率提升高达5.3%,多样性指标提升7.4%。
12. 论文题目:Over-Searching in Search-Augmented Large Language Models
  • 作者:Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05503
  • 摘要:搜索增强型LLM通过整合外部检索在知识密集型任务中表现出色,但常存在“过度搜索”行为——不必要地调用搜索工具,既不提升响应质量,又导致计算效率低下,并因引入无关上下文产生幻觉。研究从查询类型、模型类别、检索条件和多轮对话等维度系统评估过度搜索:1)搜索通常提升可回答查询的准确性,但损害不可回答查询的弃权能力;2)复杂推理模型和深度研究系统中过度搜索更显著,受噪声检索加剧,且在多轮对话中累积;3)检索证据的构成至关重要,负面证据的存在提升弃权能力。研究引入“正确性令牌数(TPC)”指标量化性能-成本权衡,探索查询级和检索级缓解方法,并发布OverSearchQA数据集以促进高效搜索增强型LLM的研究。

(三)视频生成与计算机视觉创新(Video Generation & CV Innovations)

1. 论文题目:VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
  • 作者:Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
  • 发表时间:2025年1月10日
  • arXiv地址:https://arxiv.org/abs/2601.05966
  • 摘要:视频生成领域近期由扩散模型和流匹配模型主导,虽能生成高质量结果,但计算密集且难以扩展。VideoAR提出首个大规模视觉自回归(VAR)视频生成框架,结合多尺度下一帧预测与自回归建模,通过帧内VAR建模与因果下一帧预测解耦空间和时间依赖,辅以高效编码时空动态的3D多尺度令牌器。为提升长时程一致性,提出多尺度时间RoPE、跨帧误差校正和随机帧掩码,共同缓解误差传播并稳定时间连贯性。多阶段预训练流水线逐步对齐不同分辨率和时长的空间与时间学习。实验表明,VideoAR在自回归模型中取得SOTA结果,UCF-101数据集上FVD从99.5降至88.6,推理步骤减少10倍以上,VBench分数达81.74(与大一个数量级的扩散模型相当),缩小了自回归与扩散范式的性能差距,为视频生成研究提供可扩展、高效且时间连贯的基础框架。
2. 论文题目:Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals
  • 作者:Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05848
  • 摘要:视频生成的进步推动了能模拟未来以支持机器人技术和规划的“世界模型”发展,但为这些模型指定精确目标仍具挑战——文本指令过于抽象难以捕捉物理细节,目标图像在动态任务中往往不可行。Goal Force框架允许用户通过明确力向量和中间动态定义目标,模拟人类对物理任务的概念化方式。模型在精心设计的合成因果原语数据集(如弹性碰撞、多米诺骨牌倒塌)上训练,学习时空力传播。尽管仅在简单物理数据上训练,模型仍能零样本泛化至复杂现实场景(工具操作、多物体因果链)。研究表明,通过将视频生成接地于基本物理交互,模型可成为隐式神经物理模拟器,支持精确的物理感知规划,无需依赖外部引擎。

(四)特定领域应用(Domain-Specific Applications)

1. 论文题目:Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection
  • 作者:Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira 等
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05403
  • 摘要:LLM已广泛应用于金融各领域,但其训练数据主要来自人类撰写的语料库,可能继承人类偏见。行为偏见导致决策不稳定和不确定性,尤其在处理金融信息时。现有LLM偏见研究主要聚焦直接提问或简化的通用场景,忽视了复杂现实金融环境和高风险、上下文敏感的多语言金融虚假信息检测(MFMD)任务。研究提出MFMD-Scen基准,用于评估LLM在不同经济场景下MFMD任务的行为偏见。与金融专家合作构建三类复杂金融场景:1)基于角色和个性;2)基于角色和地区;3)包含种族和宗教信仰的基于角色场景,开发覆盖英语、中文、希腊语和孟加拉语的多语言金融虚假信息数据集。将场景与虚假信息声明结合,MFMD-Scen实现对22个主流LLM的系统评估,结果显示商业和开源模型均存在显著行为偏见。
2. 论文题目:The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models
  • 作者:Tassallah Abdullahi, Shrestha Ghosh, Hamish S Fraser, Daniel León Tramontini, Adeel Abbasi, Ghada Bourjeily, Carsten Eickhoff, Ritambhara Singh
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05376
  • 摘要:角色条件设定可视为LLM的行为先验,通常被认为能赋予专业知识并单调提升安全性,但在高风险临床决策中的影响尚未明确。研究系统评估临床LLM的角色控制,考察专业角色(如急诊科医生、护士)和交互风格(大胆vs谨慎)对不同模型和医疗任务行为的影响,通过多维度评估(任务准确性、校准度、安全相关风险行为)分析临床分诊和患者安全任务的性能。研究发现系统性、上下文依赖的非单调效应:医疗角色在重症监护任务中提升准确性和校准度高达20%,但在初级护理场景中降低相当幅度的性能;交互风格调节风险倾向和敏感性,但高度依赖模型;LLM评判者在安全关键案例中偏好医疗角色,但人类临床医生对安全合规性的一致性中等(平均Cohenκ=0.43),且95.9%的响应中对推理质量信心较低。研究表明,角色是引入上下文依赖权衡的行为先验,而非安全或专业知识的保证。
3. 论文题目:Legal Alignment for Safe and Ethical AI
  • 作者:Noam Kolt, Nicholas Caputo, Jack Boeglin, Cullen O’Keefe, Rishi Bommasani, Stephen Casper, Mariano-Florentino Cuéllar, Noah Feldman, Iason Gabriel, Gillian K. Hadfield, Lewis Hammond, Peter Henderson, Atoosa Kasirzadeh, Seth Lazar, Anka Reuel, Kevin L. Wei, Jonathan Zittrain
  • 发表时间:2025年1月8日
  • arXiv地址:https://arxiv.org/abs/2601.04175
  • 摘要:AI对齐包括规范问题(明确AI系统应如何行动)和技术问题(确保AI系统遵守规范),但现有研究忽视了法律这一应对这些问题的重要知识和实践来源。法律对齐领域旨在探索如何利用法律规则、原则和方法解决对齐问题,设计安全、伦理的AI系统,聚焦三大研究方向:1)设计遵循合法机构和流程制定的法律规则内容的AI系统;2)适配法律解释方法,指导AI系统推理和决策;3)利用法律概念作为结构蓝图,应对AI系统的可靠性、信任和协作挑战。这些方向提出了新的概念、实证和制度问题,包括确定特定AI系统应遵循的法律集合、创建评估真实场景法律合规性的方法、制定支持法律对齐实施的治理框架。解决这些问题需要法律、计算机科学等多学科专业知识,为跨领域协作设计更优AI提供机会。

(五)模型优化与评估(Model Optimization & Evaluation)

1. 论文题目:An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift
  • 作者:Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05882
  • 摘要:偏好调优通过优化明确的偏好信号(而非仅依赖似然),使预训练语言模型与人类对质量、有用性或安全性的判断对齐。现有研究表明,偏好调优在训练域之外评估时会降低性能和有用性,但适配策略对缓解域转移的效果尚未探索。研究通过对摘要和问答有用性任务的系统研究,比较五种主流对齐目标和多种源域到目标域的适配策略(目标域监督微调、伪标签),揭示对齐目标在域转移下的泛化差异。研究发现,基于伪标签的适配策略能显著减少域转移退化,但合成监督是一把双刃剑——伪标签虽能实现最高目标域胜率,但会导致严重的模式崩溃(多样性损失),使模型可靠但语言表达单调,反映教师模型的潜在模板。研究建议:高风险受限任务优先使用伪标签(可靠性至关重要),需要创造性或多样化语言表达的应用偏好混合域SFT和在线RL。
2. 论文题目:GenCtrl – A Formal Controllability Toolkit for Generative Models
  • 作者:Emily Cheng, Carmen Amo Alonso, Federico Danieli, Arno Blaas, Luca Zappella, Pau Rodriguez, Xavier Suau
  • 发表时间:2025年1月9日
  • arXiv地址:https://arxiv.org/abs/2601.05637
  • 摘要:生成模型的普及催生了对生成过程细粒度控制的迫切需求,但尽管从提示工程到微调的受控生成方法激增,核心问题仍未解决:这些模型是否真正可控?研究提供理论框架正式回答该问题,将人机交互视为控制过程,提出新算法估计对话场景中模型的可控集。研究为估计误差提供基于样本复杂度的形式化保证:推导可控集估计的概率近似正确(PAC)界,该界无分布依赖,仅假设输出有界,适用于任何黑盒非线性控制系统(即任何生成模型)。在对话控制的不同任务上(语言模型和文本到图像生成)的实证表明,模型可控性出人意料地脆弱,且高度依赖实验场景,凸显了严格可控性分析的必要性——研究重心应从单纯尝试控制转向理解其基本限制。
3. 论文题目:Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
  • 作者:Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
  • 发表时间:2025年1月10日
  • arXiv地址:https://arxiv.org/abs/2601.05905
  • 摘要:LLM在现实场景中的部署不仅要求正确性,还需在上下文扰动下保持真实信念。现有评估主要依赖点态置信度(如自我一致性),可能掩盖脆弱信念——研究表明,即使自我一致性完美的事实答案,在轻微上下文干扰下也会迅速崩溃。为解决该问题,提出邻域一致性信念(NCB),一种评估概念邻域内响应连贯性的结构型信念稳健性度量,并引入认知压力测试协议,探测上下文干扰下的输出稳定性。多个LLM的实验表明,高NCB数据的性能对干扰更具抵抗力。研究提出结构感知训练(SAT),优化上下文不变的信念结构,将长尾知识脆弱性降低约30%。
4. 论文题目:DR-LoRA: Dynamic Rank LoRA for Mixture-of-Experts Adaptation
  • 作者:Guanzhi Deng, Bo Li, Ronghao Chen, Huacan Wang, Linqi Song, Lijie Wen
  • 发表时间:2025年1月8日
  • arXiv地址:https://arxiv.org/abs/2601.04823
  • 摘要:混合专家(MoE)已成为LLM缩放的主要范式,参数高效微调(PEFT)(如LoRA)广泛用于适配预训练MoE LLM到下游任务。但现有方法为所有专家分配相同的LoRA秩,忽视了MoE LLM的内在功能专业化,导致资源错配——任务相关专家资源不足,而无关专家获得冗余参数。DR-LoRA(动态秩LoRA)框架提出在微调过程中基于任务特定需求动态增长专家LoRA秩,采用专家显著性评分机制,整合专家路由频率和LoRA秩重要性,量化每个专家对额外容量的需求。高显著性评分的专家优先进行秩扩展,自动形成适配目标任务的异质秩分布。多个基准测试表明,DR-LoRA在相同参数预算下持续优于标准LoRA和静态分配策略,通过更高效的参数利用实现更优任务性能。

更多内容关注公众号"快乐王子AI说"

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐