🤖 AI学术论文前沿

🎬 Imitating What Works: 基于人类视频的模拟过滤模块化策略学习

链接: https://arxiv.org/abs/2602.13197v1
概况: 通过观看人类视频学习操作技能有潜力为机器人学习解锁新的高度可扩展数据源。该研究专注于预抓取操作,其中任务涉及在抓取物体后执行各种抓取后动作。人类视频为学习抓取后动作提供了强信号,但对于学习前提抓取行为(特别是非人类手形机器人)效果较差。该框架使用配对抓取轨迹过滤在模拟中处理人类视频运动数据,扩展轨迹数据并添加抓取适宜性标签,从而实现任务导向抓取能力的监督学习。

📚 Semantic Chunking and the Entropy of Natural Language

链接: https://arxiv.org/abs/2602.13194v1
概况: 印刷英语的熵率著名地估计为每个字符约1比特,这是现代大型语言模型最近才接近的基准。这种熵率意味着英语相对于随机文本预期的每个字符5比特包含近80%的冗余。引入一个统计模型,试图捕捉自然语言复杂的多尺度结构,首次原理性地解释这种冗余水平。该模型描述了一个将文本自相似地分割成语义连贯块直到单词级别的过程。

🎮 Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control

链接: https://arxiv.org/abs/2602.13193v1
概况: 预训练视觉语言模型可以在多样化设置中进行语义和视觉推理,为机器人控制提供有价值的常识先验。然而,有效地将这些知识基础化到机器人行为中仍然是一个开放挑战。引入Steerable Policies:在不同抽象级别(如子任务、运动和基础像素坐标)的丰富合成命令上训练的VLA模型。通过改进低级可控性,Steerable Policies可以解锁VLMs中的预训练知识,实现改进的任务泛化。

🎥 CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

链接: https://arxiv.org/abs/2602.13191v1
概况: 视频语言模型使AI系统能够理解视频中的时间动态。为了适应最大上下文窗口约束,当前方法使用关键帧采样,由于稀疏的时间覆盖可能会错过宏观事件和微观细节。此外,为每帧处理完整图像及其标记会产生大量计算开销。提出利用视频编解码原语(特别是运动向量和残差),这些原语本机编码视频冗余和稀疏性,无需为大多数帧进行昂贵的完整图像编码。

🔬 Disorder viscosity correction approach to calculate spinodal temperature and wavelength

链接: https://arxiv.org/abs/2602.13190v1
概况: 自旋分解是材料微观结构形成的关键机制,由于需要准确捕捉局部能量景观的无参数方法,长期以来一直对预测建模构成挑战。在这项工作中,提出了一种通过引入无序粘度校正到从有限小代表单元计算的体自由能来预测自旋行为的方法。该方法近似了过渡到无序状态所需的能量惩罚,以启用界面形成所必需的局部凹形体自由能区域的稳定化,同时抑制长程浓度波动。

⚛️ Nuclear gradients from auxiliary-field quantum Monte Carlo and their application in geometry optimization and transition state search

链接: https://arxiv.org/abs/2602.13187v1
概况: 在本文中,提出了一种在相无辅助场量子蒙特卡罗框架内计算准确且可扩展的核力的方法。我们的方法利用能量泛函的自动微分以获得与能量评估计算成本相当的核梯度。该方法的准确性通过与有限差分计算进行比较得到验证,显示出极好的一致性。然后探索了几种机器学习策略来学习噪声AFQMC数据。

📊 Profiling systematic uncertainties in Simulation-Based Inference with Factorizable Normalizing Flows

链接: https://arxiv.org/abs/2602.13184v1
概况: 无箱似然拟合旨在最大化从实验数据中提取的信息,但它们在现实统计分析中的应用常常受到分析系统不确定性计算成本的阻碍。此外,当前基于机器学习的推理方法通常限于在多维空间中估计标量参数,而不是完整的微分分布。提出了一个用于模拟推理的通用框架,该框架在测量多元感兴趣分布的同时有效地分析扰动参数。

🌧️ Selection of CMIP6 Models for Regional Precipitation Projection and Climate Change Assessment in the Jhelum and Chenab River Basins

链接: https://arxiv.org/abs/2602.13181v1
概况: 有效的水资源管理依赖于对水道流量的准确预测。对于预测的气候数据,使用不同的通用环流模型会模拟出对比结果。本研究展示了为最新一代CMIP6选择GCM用于水文气候变化影响研究。使用了基于包络的方法进行选择,该方法包括基于机器学习技术的组件,允许在没有现场参考数据的情况下选择GCM。

🔄 Improved Regret Guarantees for Online Mirror Descent using a Portfolio of Mirror Maps

链接: https://arxiv.org/abs/2602.13177v1
概况: OMD及其变体为OCO提供了一个灵活的框架,其中性能关键取决于镜像映射的选择。虽然基础OPGD和OEG(两者都是OMD的特例)的几何结构已得到很好的理解,但对于任何给定的约束集和一般损失函数族(例如稀疏损失),如何构建最优镜像映射仍然是一个具有挑战性的开放问题。受参数化一组接近最优镜像映射的启发,我们考虑一个更简单的问题:是否可能通过使用在L1和L2之间插值的几何结构的镜像映射获得遗憾的多项式增益。

🏃 Monocular Markerless Motion Capture Enables Quantitative Assessment of Upper Extremity Reachable Workspace

链接: https://arxiv.org/abs/2602.13176v1
概况: 验证一种临床可访问的方法,用于使用单个(单目)相机和AI驱动的无标记运动捕捉来量化上肢可达工作空间。这些技术针对特定临床导向任务的客观评估和验证对于它们在临床运动分析中的采用至关重要。AI驱动的单目MMC降低了临床采用的障碍,并有可能减少这种常见临床评估分析的开销。

🧮 Learning functional components of PDEs from data using neural networks

链接: https://arxiv.org/abs/2602.13174v1
概况: 偏微分方程通常包含难以或不可能直接测量的未知函数,阻碍了我们从模型推导预测的能力。从数据恢复标量PDE参数的工作流程已得到充分研究:这里展示了类似的工作流程如何用于从数据恢复函数。具体来说,将神经网络嵌入到PDE中,并展示它们如何在训练数据时以任意精度近似未知函数。

🎯 Accuracy Comes at a Cost: Optimal Localisation Against a Flow

链接: https://arxiv.org/abs/2602.13173v1
概况: 一个推进粒子要保持在静止目标附近,抵抗热噪声和将其带走的恒定流动,需要多少功?研究了这种粒子在有限时间内的控制,并找到了时间依赖性游泳速度和扩散率的最优协议,无需反馈。通过均方偏差从目标量化的精度和能量成本之间存在权衡关系,这补充了随机热力学中已知的精度和成本之间的权衡。

🏞️ LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

链接: https://arxiv.org/abs/2602.13172v1
概况: 长序列流式3D重建仍然是一个重大的开放挑战。现有的自回归模型在处理长序列时经常失败。它们通常将姿态锚定到第一帧,这导致注意力衰减、尺度漂移和外推误差。引入LongStream,一个新颖的规范解耦流式视觉几何模型,用于数千帧的度量尺度场景重建。

🎮 Operator Learning for Families of Finite-State Mean-Field Games

链接: https://arxiv.org/abs/2602.13169v1
概况: 有限状态平均场博弈作为大型交互粒子系统的极限出现,并由MFG系统控制,这是一个耦合的前向-后向微分方程,包括描述种群分布的前向Kolmogorov-Fokker-Planck方程和定义值函数的后向Hamilton-Jacobi-Bellman方程。高效求解MFG系统具有挑战性,每个系统的结构取决于玩家的初始分布和游戏的终端成本。

🎭 Realistic Face Reconstruction from Facial Embeddings via Diffusion Models

链接: https://arxiv.org/abs/2602.13168v1
概况: 随着人脸识别系统的发展,隐私保护人脸识别系统因其准确的识别、增强的面部隐私保护和对各种攻击的鲁棒性而受到欢迎。然而,有限的研究进一步验证了从这些系统的嵌入重建逼真高分辨率人脸图像的隐私风险,特别是对于PPFR。在这项工作中,提出了人脸嵌入映射,一个通用框架,探索Kolmogorov-Arnold网络通过利用预训练的身份保持扩散模型对最先进的人脸识别和隐私保护人脸识别系统进行嵌入到人脸攻击。


今日AI动态总结: 今日的AI学术研究重点集中在机器人操作学习、自然语言熵理论、视觉语言动作策略、视频语言模型效率、材料科学计算、量子蒙特卡罗梯度、模拟推理不确定性、气候模型选择、在线镜像下降优化、单目运动捕捉、PDE函数学习、粒子定位控制、长序列视觉几何、平均场博弈算子学习和人脸重建等前沿领域。这些研究展示了AI在机器人技术、自然语言处理、计算机视觉、量子计算、气候科学、优化算法和生物识别等多个方向的最新进展。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐