51c大模型~合集68

深度｜李飞飞：我不知道什么是AGI你对人工通用智能（AGI）感到困惑吗？这就是 OpenAI 执着于最终以“造福全人类”的方式创造的东西。你可能想认真对待他们，因为他们刚筹集了 66 亿美元以更接近这个目标。但如果你仍然在想究竟什么是 AGI，你并不孤单。在周四的 Credo AI 负责任的人工智能领导峰会上，世界著名研究员常被称为“人工智能教母”的李飞飞表示，她也不知道什么是 AGI。

whaosoft-143

1665人浏览 · 2024-11-21 02:00:00

whaosoft-143 · 2024-11-21 02:00:00 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/12219999

#FakeShield

提出基于多模态大语言模型的可解释图像篡改检测定位

本篇分享论文FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models，北京大学提出基于多模态大语言模型的可解释图像篡改检测定位。

论文信息：Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang*. FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models. arxiv preprint arxiv:2410.02761, 2024. （*张健为通讯作者）
arxiv链接：https://arxiv.org/abs/2410.02761
论文网站：https://zhipeixu.github.io/projects/FakeShield/
项目网址：https://github.com/zhipeixu/FakeShield

随着生成式AI技术的快速发展，图像伪造和篡改变得越来越普遍，在真实性与安全性方面带来挑战。传统的图像伪造检测与定位（IFDL）方法存在检测原理未知和泛化性较差等问题。

为了应对这些问题，本文提出了一种全新的任务：可解释的图像伪造检测与定位（e-IFDL），并设计了一个新颖的多模态伪造检测定位框架：FakeShield。

如图1所示，与传统IFDL方法相比，FakeShield不仅能检测图像的真实性并生成篡改区域的掩膜，还可以基于像素伪影和图像语义错误等伪造线索提供合理的解释。

此外，我们创建了多模态篡改描述数据集MMTD-Set，并结合数据域标签（domain tag）引导的可解释的伪造检测模块DTE-FDM与多模态伪造定位模块MFLM，以实现细粒度伪造检测与定位。

实验结果显示，FakeShield在包含多种伪造方法的测试集上，展现了优越的性能以及出色的鲁棒性，泛化性。

图1：(a)传统IFDL方法，(b)可解释的IFDL方法

MMTD-Set数据集构建：如图2所示，我们根据篡改方法，将篡改图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。

基于现有的IFDL数据集，我们利用GPT-4o生成对于篡改图像的分析与描述，构建“图像-掩膜-描述”三元组，以支持模型的多模态训练。

另外，针对不同篡改类型，我们设计了特定的描述提示，引导GPT关注不同的像素伪影和语义错误。

图2：MMTD-Set数据集构建过程

FakeShield框架：如图3所示，该框架包括域标签引导的可解释伪造检测模块（Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM）和多模态伪造定位模块（Multi-modal Forgery Localization Module，MFLM）两个关键部分。

DTE-FDM负责图像伪造检测与检测结果分析，利用数据域标签（domain tag）弥合不同伪造类型数据之间的数据域冲突，引导多模态大语言模型生成检测结果及判定依据。

MFLM则使用DTE-FDM输出的对于篡改区域的描述作为视觉分割模型的Prompt，引导其精确定位篡改区域。

图3：FakeShield框架图

在实验结果方面，我们从检测，定位，解释三个方面来评价FakeShield的效果，其在多个IFDL测试集中表现出优越性能，定量结果如表1，表2，表3所示，定位性能的定性结果如图4所示。

表1：FakeShield与主流IFDL方法的定位性能比较

表2：FakeShield与主流通用MLLM方法的解释性能比较

表3：FakeShield与主流IFDL方法的定位性能比较

图4：FakeShield与主流IFDL方法的定位性能的定性比较

实验室简介：
视觉信息智能学习实验室（VILLA）由张健助理教授于2019年创立并负责，主要围绕“智能可控图像生成”这一前沿领域，深入开展高效图像重建、可控图像生成和精准图像编辑三个关键方向的研究。

创立至今已在Nature子刊Communications Engineering、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV、ICLR等高水平国际期刊和会议上发表论文90余篇。

近期工作包括无需GT自监督图像重建SCNet、超低采样率单光子压缩共焦显微成像DCCM、图像条件可控生成模型T2I-Adapter、全景视频生成模型360DVD、拖拽式细粒度图像编辑DragonDiffusion/DiffEditor、精确控制视频内容与运动的编辑ReVideo、面向3DGS动态场景重建与理解HiCoM/OpenGaussian、面向3DGS的隐写框架GS-Hider、面向AIGC内容篡改定位与版权保护的水印技术EditGuard/V2A-Mark等，欢迎关注！

更多信息可访问VILLA实验室主页（https://villa.jianzhang.tech/）或张健助理教授个人主页（https://jianzhang.tech/）。

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#πRL

RLinf上新πRL：在线强化学习微调π0和π0.5

近年来，基于流匹配的 VLA 模型，特别是 Physical Intelligence 发布的 π0 和 π0.5，已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布，能够生成高维且平滑的连续动作序列，在应对复杂操控任务时展现出显著优势。

尽管如此，VLA 模型在训练过程中严重依赖于大规模、高质量的人类演示数据，而收集和标注这些数据的成本高昂且周期漫长。强化学习允许智能体通过与环境的真实交互自行探索和迭代改进，可以减少 VLA 模型对大量数据的依赖，并进一步提升 SFT 的性能上限。

目前，针对流匹配 VLA 的 RL 研究仍较少，主流工作大多集中在 OpenVLA 和 OpenVLA-OFT 等自回归 VLA 上。其核心挑战在于：流匹配 VLA 通过迭代去噪生成动作，导致难以直接计算输出动作的对数似然——而这是 PPO、GRPO 等策略梯度方法更新的关键。

清华、北大、CMU 等机构联合推出了一套面向流匹配 VLA（π0, π0.5）的在线强化学习（PPO 和 GRPO）微调框架 πRL。该框架基于 RLinf（首个面向xx智能的大规模强化学习系统）实现，提出 Flow-Noise 和 Flow-SDE 两种微调方案，在公开测试平台 LIBERO 达到平均 97.6% (π0) 和 98.3% (π0.5)，验证了微调方案的有效性。

进一步，πRL 在涵盖 4,352 种抓取-放置任务组合中进行训练，成功率涨幅 40% 以上，最终成功率超 80%，验证了框架支持大规模任务训练的能力。目前，全部代码、模型和文档示例已完全开源。

论文链接： https://arxiv.org/pdf/2510.25889
开源代码： https://github.com/RLinf/RLinf
模型仓库： https://huggingface.co/RLinf
复现文档：https://rlinf.readthedocs.io/en/latest/rst_source/examples/pi0.html

图 1：本框架分别支持 π0 和 π0.5 两个模型，并提出了 Flow-Noise 和 Flow-SDE 两种技术方案，在 LIBERO 和 ManiSkill 测试平台上分别实现了最高 40.0% 和 44.7% 的增幅。

πRL 核心原理

针对流匹配 VLA 难以直接计算输出动作对数似然问题，πRL 提出了两条技术路线：Flow-Noise 和 Flow-SDE。

图 2： Flow-Noise 通过将去噪过程建模为离散马尔可夫过程，能够直接计算去噪序列的联合概率密度；Flow-SDE 则将去噪与环境交互过程相结合，构建了双层 MDP。策略在 rollout 阶段收集完数据后，统一采用 PPO 进行策略梯度优化。

Flow-Noise

注入可学习噪声：引入一个可学习的噪声网络，在去噪每一步均加入噪声，使去噪过程变为随机过程。
计算联合概率：由于每一步噪声均可知（由噪声网络输出），整个去噪序列（从初始噪声至最终动作）的联合对数似然可精确计算。
策略梯度优化：基于可精确计算的联合对数似然，可直接用标准策略梯度方法进行优化。

Flow-SDE

ODE-SDE 转化：将原有确定性 ODE 去噪步骤，转化为等效 SDE，从而在策略中引入随机性。
构建两层 MDP：把 SDE 去噪作为内层循环，与智能体-环境交互（外层循环）结合，构建双层 MDP 结构。
混合采样提速：训练中大部分采用 ODE 确定性采样，小部分用 SDE 探索，以加速训练同时保证探索。
策略梯度优化：在双层 MDP 中，策略输出由与环境交互的动作转为流匹配模型输出的速度场，可直接进行策略梯度优化。

Critic 设计

针对 π0 和 π0.5 模型，πRL 在应用 PPO 算法微调时，探索了两种 Actor-Critic 架构：

Action Expert Critic（适用于 π0）
VLM 仅包含图像和语言信息，机器人状态与噪声动作一同送入 Action Expert。
Critic 接 Action Expert 隐藏层输出，并通过对全部噪声步取平均获得稳定的估计。
VLM Critic（适用于 π0.5）
VLM 融合全部输入（图像、语言、机器人状态）。
Critic 直接接 VLM 隐藏层输出。

图 3：我们系统性地探索了两种 Critic 设计思路：一种将 Critic 部署在动作模型（Action Expert）之后，另一种则将 Critic 直接接入视觉语言模型（VLM）后。

实验结果

πRL 在常用 VLA 评测集 LIBERO 及 ManiSkill 自建多任务集上验证了其有效性。

LIBERO：少样本 SFT+RL 范式超越全数据 SFT！

πRL 让 π0（few-shot）平均成功率从 57.6% 提高到 97.6%，π0.5（few-shot）从 77.1% 提高到 98.3%，超越全数据 SFT 训练的流匹配 VLA 表现。

图 4：LIBERO 测试平台下的性能对比

与此同时，在 LIBERO-Long 长时序任务上，πRL 使 π0.5 单样本 (one-shot) SFT 性能从 43.9% 提升到 94.0%！

图 5： LIBERO-Long 任务 one-shot SFT 的 RL 收敛曲线

ManiSkill：验证大规模多任务 RL 能力！

为了验证 πRL 对大规模多任务的支持能力，我们在 Maniskill 中构造了涵盖 4,352 种抓取-放置任务组合。结果表明，通过在320个并行环境中进行训练，πRL（Flow-Noise）将 π0 成功率从 38.42% 提升到 78.83%，π0.5 成功率从 40.06% 提升到 90.85%。

图 6：ManiSkill Main任务中Pi05的RL收敛曲线

此外，我们还设计了 12 个与训练环境不同的域随机化测试环境，用于考察模型的泛化能力。在这些环境中，我们改变语言指令、物体类型、桌面纹理，或者在执行过程中移动物体、添加多个物体，来考察模型的泛化能力，并在每个环境中进行了 256 次测试来排除统计涨落的结果的影响。结果表明，πRL 算法能够显著提升两类模型在新环境下的泛化性能。

图 7：ManiSkill环境中对泛化能力的测试

我们还在实验中观测到，相比监督微调，强化学习可以使得模型更少犯错，模型完成操作任务的平均步数可以显著减少，直到逼近专家数据水平：

图 8：强化学习提高完成任务的效率

消融研究

除上述对比试验外，论文还包含大量消融实验，为后续基于流匹配 VLA 的 RL 研究积累了经验。

算法对比（PPO vs. GRPO）：使用流匹配 VLA，PPO 在最终性能和训练稳定性上均优于 GRPO。

图 9：PPO 和 GRPO 算法的收敛曲线对比

MDP 对比： Flow-Noise（单层 MDP）收敛略快，Flow-SDE（双层 MDP）单步更新更快（与去噪步数解耦），最终性能接近。
随机性注入对比：可学习噪声（Flow-Noise）与固定噪声（Flow-SDE）两种策略，在相同 MDP 框架下性能类似，证明两类噪声注入均有效。
Critic 设计：Critic 接在 VLM 后略优于接在 Action Expert 后，且更稳定。

更多技术细节和消融结果详见论文。

未来展望

πRL 未来将继续发布更多结果，包括：

更多基准测试集：接入更多仿真环境，进行更丰富的评测。
提升 OOD 泛化能力：针对强化学习带来的泛化增益展开更深入分析。
真实机器人部署：推动 πRL 框架从仿真走向真实物理机器人，验证其实际应用价值。

....

#AlphaEvolve

谷歌AlphaEvolve太香了，陶哲轩甚至发了篇论文，启发数学新构造

著名数学家陶哲轩发论文了，除了陶大神，论文作者还包括 Google DeepMind 高级研究工程师 BOGDAN GEORGIEV 等人。

论文展示了 AlphaEvolve 如何作为一种工具，自主发现新的数学构造，并推动人们对长期未解数学难题的理解。

AlphaEvolve 是谷歌在今年 5 月发布的一项研究，一个由 LLMs 驱动的革命性进化编码智能体。它可以发现极其复杂的算法，甚至跨越数百行代码，远超简单函数的范畴。

此前，陶哲轩多次表示，他一直在和 Google DeepMind 合作，探索 AlphaEvolve 的潜在数学应用。

如今，与此相关的论文也已经发表。

论文地址：https://arxiv.org/pdf/2511.02864v1

接下来我们看论文内容。

计算工具的出现，正在从根本上重塑数学发现的格局，它们能够自主地探索数学空间并生成新的结构。

AlphaEvolve 是这一演化过程中的重要一步，该系统展示了当大语言模型（LLM）与进化计算和严格的自动化评估机制相结合时，它们能够在大规模上发现显式构造，其结果可以达到甚至超越许多长期数学问题中当前已知的最佳界限。

为了展示 AlphaEvolve 广度，研究团队选择了覆盖数学分析、组合数学、几何学与数论的 67 个问题。

在多数任务中，AlphaEvolve 重新发现了已知最佳解，并在若干问题上取得了改进结果。

在部分情况下，AlphaEvolve 甚至能够将针对有限输入值得到的结果泛化为适用于所有输入值的通式。

此外，该研究还将这一方法与 Deep Think 和 AlphaProof 结合，构建了一个更广泛的框架，其中的证明助手与推理系统可以进一步实现自动化证明生成和更深入的数学洞察。

这些结果表明，由大语言模型引导的进化搜索可以自主发现数学构造，补充人类直觉，在某些情况下甚至能匹配或超越现有最佳成果，展示了 AI 系统与数学家之间全新互动方式的潜力。

本文还发现，在许多情况下，除了计算规模之外，为了让 AlphaEvolve 输出与已有文献相当的结果，与传统的数学研究方式相比，它几乎不需要额外开销：平均而言，使用 AlphaEvolve 搭建并准备一个问题的时间通常只需数小时。

本文预计，在没有任何先验知识、信息或代码的情况下，采用传统方法完成同等规模的研究通常会耗费更长的时间。因此，他们将这一研究范式称为大规模建构性数学（constructive mathematics at scale）。

论文还提到，支撑 AlphaEvolve 高效性的一个关键数学洞见在于：它具备同时在多个抽象层面上运行与优化的能力。

该系统不仅能够优化某个数学构造的具体参数，还能进一步优化发现这些构造的算法策略本身。这种元层级进化（meta-level evolution）代表了一种全新的递归形式：优化过程本身，成为了被优化的对象。

举例来说，AlphaEvolve 可能会进化出一个程序，这个程序会使用：

一组启发式规则（heuristics），
一个 SAT 求解器，
一个无收敛保证的二阶优化方法，
或者这些方法的任意组合。

这种分层式的优化方法在 AlphaEvolve 处理复杂数学问题时尤为明显（这些问题通常由用户提出）。系统往往能够为优化过程的不同阶段，自动发现专门化的搜索启发式策略。这种自发形成的阶段性分工与策略优化，与人类数学家在研究与探索中的直觉性思维方式惊人地相似。

值得一提的是，由于篇幅限制，本文没有对每个问题的研究历史进行全面回顾，而是为每个问题提供了相应的参考文献，供读者查阅已有的研究成果。

人工智能与数学发现

人工智能在数学发现领域的崛起，标志着人类在应对数学中最具挑战性问题的方式上迎来了范式转变。近年来的一系列突破性成果展示了 AI 在协助数学家方面的强大能力。例如：

AlphaGeometry 在标准时间限制内解出了 30 道奥赛几何题中的 25 道；
AlphaProof 与 AlphaGeometry 2 在 2024 年国际数学奥林匹克（IMO）中取得银牌成绩，而改进版 Gemini Deep Think 框架在 2025 年 IMO 中更是获得了金牌；
OpenAI 的模型也在同年取得了金牌表现。

除了竞赛表现，AI 也开始在真正意义上实现数学发现。例如：

FunSearch 在 cap set 问题中找到了新解，并提出了更高效的装箱算法；
PatternBoost 推翻了一项存在 30 年的数学猜想；
早期系统如 Graffiti 则以自动生成猜想著称。

此外，还有诸多工作聚焦于辅助数学家寻找数学命题的形式化或非形式化证明。

与这些系统不同，AlphaEvolve 更侧重于探索与发现，使其不仅能够进行数学空间的探索，还能将发现结果结合形式化证明与严谨的数学验证，实现从直觉发现到可验证证明的完整闭环。

进化算法寻找数学构造

从本质上讲，AlphaEvolve 是一种高度复杂的搜索算法。为了理解它的设计理念，我们可以从一个熟悉的概念开始。举个例子：假设我们要解决这样一个问题：在 50 个顶点的图中，找到一个既没有三角形、又没有长度为 4 的环，并且边数尽可能多的图。

一种经典做法是：从一个随机生成的图开始；然后反复进行微小的调整（例如，添加或删除一条边），以提升其得分，在这个例子中，得分可以定义为边的数量，但若图中出现三角形或 4 环则会被惩罚；如此继续，直到无法再进一步改进为止。

这种不断优化、逐步逼近最优解的思想，正是 AlphaEvolve 复杂进化机制的基础。

第一个关键思想来自 AlphaEvolve 的前身 FunSearch 及其重实现版本：该思想的核心在于 —— 不在图的空间中进行局部搜索，而是在生成这些图的 Python 程序空间中进行搜索。

具体来说，本文从一个简单的程序出发，然后使用 LLM 生成许多与之相似但略有差异的程序（即突变体）。

接着，运行每个程序，并对其生成的图进行评估打分。

一个自然的问题是：这种做法为什么会有效？毕竟，一次 LLM 调用的计算代价通常要远高于简单地添加一条边或评估一个图。这意味着，这种方法在探索候选解的数量上往往比传统局部搜索少成千上万倍。

然而，这种在程序空间中搜索恰恰能带来强大的优势。许多优美的数学对象，都可以用简短而优雅的程序来生成。即便某个问题只有一个唯一的最优构造，也可能存在多种自然的程序实现方式来生成它。相反，那些数量庞大、形态杂乱的局部最优图，通常并不对应任何简单的程序描述。

因此，在程序空间中搜索相当于引入了一种简洁性与结构性先验，帮助算法避开复杂的局部最优点，朝着优雅且往往是最优的解前进。

当然，在某些情况下，如果一个问题的最优解无法用简单的程序描述，而必须依靠启发式方法才能找到，AlphaEvolve 在这类任务中同样表现出色。

尽管如此，对于那些评分函数计算代价极低的问题，传统方法凭借其纯粹的暴力计算优势依然难以被超越。为了解决这一问题，本文提出了一个新的思路：

与其让 AlphaEvolve 直接进化出生成构造的程序，不如让它进化出搜索构造的程序。

这就是本文所称的 AlphaEvolve 的搜索模式。在所有以找到高质量构造为目标、而不太关注其可解释性和泛化性的任务中，本文都采用了这种模式。

在这种设定下，AlphaEvolve 种群中的每个程序都是一种搜索启发式算法。每个程序都会被分配一个固定的时间预算（例如 100 秒），并被要求在这段时间内找到尽可能好的构造。该启发式算法的得分，即为它在限定时间内所找到的最佳对象的得分。

这种机制有效地解决了计算速度的不平衡问题：虽然生成一个新的搜索启发式算法需要一次昂贵的 LLM 调用，但这次调用可以触发一场极为廉价的大规模计算 —— 因为这个新生成的启发式程序能够在自身的运行过程中，独立地探索数百万个候选构造。

研究人员强调，搜索过程不必每次都从零开始。相反，评估一种新启发式算法的标准，是看它能否改进迄今为止找到的最佳构造。因此，该方法实际上是在进化一个由「改进器」函数组成的群体，从而创造了一个动态的、自适应的搜索过程。

在初始阶段，执行广泛探索性搜索的启发式算法可能更受青睐；而当接近一个好的解决方案时，执行巧妙的、针对特定问题进行优化的启发式算法则可能占据主导。最终的结果通常是一个由专门的启发式算法组成的序列，当它们串联起来时，便能产生一个达到顶尖水平的构造。

这种方法的缺点是搜索过程可能会损失可解释性，但它所发现的最终对象仍然是一个定义明确的数学实体，可供后续研究。事实证明，这种新增机制似乎对更困难的问题特别有用，因为在这些问题上，单一的搜索函数可能无法自行发现一个好的解决方案。

从实例到公式的泛化：泛化器模式

上述搜索模式擅长为固定规模的问题（例如，𝑛 = 11 的堆叠问题）寻找构造。除此之外，研究人员还试验了一种更具挑战性的「泛化器模式」。

在这种模式下，系统被要求 AlphaEvolve 编写一个能解决任意给定 𝑛 值的程序。该程序的评估基于其在一系列 𝑛 值上的表现。其目标是让 AlphaEvolve 能够通过观察其（通常是）为较小的 𝑛 找到的最优解，来发现一种模式，并将其泛化为适用于所有 𝑛 的构造。

这种模式更具挑战性，但它也产生了一些最令人兴奋的成果。在一个案例中，AlphaEvolve 为尼科迪姆问题（Nikodym problem）（见问题 6.1）提出的构造启发了第三作者撰写一篇新论文。

另一方面，当使用搜索模式时，进化出的程序不容易被解释。尽管如此，最终的构造本身是可以被分析的。在算术挂谷问题（arithmetic Kakeya problem）（问题 6.30）的案例中，这些构造启发了第三作者的另一篇论文。

构建由多种 AI 工具组成的流水线

更引人注目的是，对于有限域挂谷问题（参见问题 6.1），AlphaEvolve 发现了一种有趣的通用构造。当这个程序化解决方案被输入给名为 Deep Think 的智能体时，该智能体成功推导出了其正确性证明及其规模的闭式公式。

随后，这个证明在 Lean 证明助手中使用另一个 AI 工具 AlphaProof 进行了完全的形式化。

这个结合了模式发现（AlphaEvolve）、符号证明生成（Deep Think）和形式化验证（AlphaProof）的工作流，展示了专业化 AI 系统如何集成的具体范例。它揭示了一种未来潜在的方法论：通过结合使用多种 AI 工具（全自动或半自动），协助完成从模型建议的经验观察模式到经过形式化验证的数学结果的整个过程。

局限性

研究人员还指出，尽管 AlphaEvolve 擅长解决那些可以清晰表述为优化一个适合「爬山」的平滑评分函数的问题，但在其他情况下它有时会遇到困难。特别是，研究中遇到了几个 AlphaEvolve 未能达到最优或接近最优结果的实例，这些案例也会在下文报告。

总体而言，作者发现 AlphaEvolve 在大规模应用于一系列广泛且松散相关的问题（例如，堆叠问题或森多夫猜想及其变体）时最为有效。

论文第 6 节详细介绍了使用这种方法发现的新数学结果，以及研究中发现的 AlphaEvolve 未能找到先前已知最佳构造的所有示例。作者希望这项工作不仅能为这些特定问题提供新的见解，还能激励其他科学家探索如何将这些工具应用于他们自己的研究领域。

关键见解

陶哲轩等人在探索 AlphaEvolve 的过程产出了几项关键见解。

关键的系统设计与交互组件

验证器的设计至关重要：它显著影响系统的性能和所发现结果的质量。例如，优化器有时会更倾向于那些希望避免的、更稳定（平凡）的解。因此，设计一个巧妙的验证器来避免这种行为，是发现新结果的关键。

连续损失函数的优势：在某些情况下，采用连续（而非离散）损失函数被证明是指导进化搜索过程的更有效策略。以问题 6.54 为例，评分函数本可以被设计为计算配置中接触圆柱体的数量（非法配置则为 -∞）。然而，通过观察一个依赖于距离的连续评分函数，研究团队实现了一个更成功、更快速的优化过程。

提示与人类专家的决定性作用：提示中给出的建议以及提示者的经验是另一个重要组成部分。研究人员发现，随着尝试次数的增多，他们越发懂得如何向 AlphaEvolve 提问。例如，与直接尝试寻找构造相比，在「搜索模式」下进行提示，能产生更高效的程序和更好的结果。

此外，在作为特定问题领域专家的用户手中，AlphaEvolve 的表现总是远胜于非领域专家的用户。提示中给予 AlphaEvolve 的专家建议对最终构造的质量有着重大影响，因为 AlphaEvolve 总是会试图充分利用这些建议，同时保留其要点。研究强调，人类的专业知识与 AlphaEvolve 的计算能力相结合，才能共同带来最佳的整体结果。

实验过程中的重要观察

在实验过程中，研究团队还观察到了一些值得注意的现象，这些现象揭示了系统的行为模式和潜力。

欺骗现象：系统有时会寻找问题设置中的漏洞或利用人为因素，而不是找到真正的解决方案。例如，当用离散版本逼近全局约束（如正性）时，会出现有漏洞的验证器 (leaky verifier)，或者系统会利用对廉价模型的不可靠 LLM 查询。这凸显了设计精心且稳健的评估环境的必要性。

少即是多的泛化模式：当系统被提供一套约束更严格的输入或特征时，算法的泛化能力反而得到了提高，这有助于促进发现广泛适用的算法。拥有大量数据并不必然意味着更好的泛化性能。相反，当寻找能够在广泛参数范围内泛化的可解释程序时（如问题 6.29, 6.65, 6.1），研究人员通过仅向 AlphaEvolve 展示 n 值较小时的先前最佳解，限制了它能访问的数据量。这种方法似乎更能鼓励基本思想的涌现。

跨问题训练可显著改善结果：当系统在相关问题或一系列相关问题实例上进行单次训练时，效果会更好。例如，在探索几何问题时，同时处理具有不同点数 n 和维度 d 的配置被证明是非常有效的。一个在特定 (n,d) 对上表现良好的搜索启发式很可能成为其他配对的坚实基础，引导系统走向更普适的原则。

系统能力边界与未来展望

研究发现，AlphaEvolve 擅长发现那些已在当前数学能力范围之内、但尚未被发现的构造。这些构造之所以未被发现，通常是因为需要大量时间和精力来寻找适用于特定问题的标准思想的正确组合。

另一方面，对于那些需要真正新颖、深刻见解才能取得进展的问题，AlphaEvolve 可能不是合适的工具。

展望未来，实现系统更大自主性（例如使 AlphaEvolve 能够选择自己的超参数以动态调整其搜索策略）是重要的一步。

AlphaEvolve 这样的工具未来可用于系统性地评估大类数学界限或猜想的难度。这可能会带来一种新的分类法，允许研究人员半自动地将某些不等式标记为「AlphaEvolve-hard」 (AlphaEvolve 难题)，表明它们对基于 AlphaEvolve 的方法具有抵抗性。

反过来，其他问题则可能被标记为适合通过理论和计算机辅助技术进行进一步攻坚，从而更有效地指导未来的研究工作。

更多细节请参看原论文。

....

#WorldVLA

阿里新研究：统一了VLA和世界模型

如果说视觉让AI看见世界，动作让AI改变世界，那么——

WorldVLA正在让AI理解世界。

顾名思义，WorldVLA是一个将视觉语言动作模型（VLA）与世界模型相融合的统一框架，由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。

在该框架下，

世界模型通过结合对动作与图像的理解来预测未来图像，旨在学习环境的潜在物理规律，以提升动作生成的准确性；
动作模型则基于图像观测生成后续动作，不仅有助于视觉理解，还反向促进世界模型的视觉生成能力。

实验结果表明，WorldVLA的表现显著优于独立的动作模型与世界模型，充分体现了二者之间的相互增强效应。

下面具体来看。

统一VLA与世界模型

如今，VLA和世界模型虽在分头并进，但其在功能上的局限已成为制约发展的关键瓶颈：

VLA模型：基于预训练多模态大语言模型（MLLM）构建，虽具备跨机器人任务泛化能力，但仅将动作作为输出，未深度整合为输入进行分析，缺乏对动作的全面理解。
世界模型：能基于当前观测和动作预测未来视觉状态，理解视觉信息与行为动态，但无法直接生成动作，在需明确动作规划的场景中应用受限。

为了解决上述难题，研究团队提出了WorldVLA——一种用于统一动作与图像理解和生成的自回归动作世界模型。

团队基于Chameleon模型进行初始化，让WorldVLA使用三套独立的分词器（tokenizer）对图像、文本和动作进行编码。

图像分词器采用VQ-GAN模型（一种结合向量量化与生成对抗网络的图像生成模型），并针对特定图像区域（如人脸、显著物体等）引入了感知损失优化。

值得一提的是，该分词器的压缩比为16，码本大小为8192。对于256×256的图像，会生成256个token；对于512×512的图像，则生成1024个token。

动作分词器将连续的机器人动作的每个维度离散化为256个区间，区间宽度根据训练数据的范围确定。动作由7个token表示，包括3个相对位置、3个相对角度，以及1个绝对夹爪状态。

文本分词器采用训练好的BPE分词器，词表大小为65536，其中包括8192个图像token和256个动作token。

所有文本、动作和图像都被离散化为token，并以自回归方式进行训练。

自回归模型中的标准注意力机制通常采用因果注意力掩码（causal attention mask），即当前token只能访问前面的token信息，而无法获取后续token的信息，如下图 (a) 所示。

然而，这种传统配置在生成动作块（即多个连续动作）时存在明显不足。在默认注意力掩码下，早期动作产生的错误会传递到后续动作，从而导致性能下降。

为了解决这一问题，团队提出了一种针对动作生成的替代注意力掩码，如上图 (b) 所示。该掩码确保当前动作的生成仅依赖文本和视觉输入，而屏蔽之前动作的影响。

这种设计使自回归框架能够并行生成多个动作，世界模型部分则仍遵循传统的因果注意力掩码，如上图(c) 所示。

之后，团队通过融合动作模型数据与世界模型数据对WorldVLA进行联合训练。

其中，引入世界模型数据以增强动作生成能力，主要基于三方面考量：

1、环境物理理解：世界模型能够通过当前状态和执行的动作来预测未来观测，从而学习环境中的物理规律，这种认知对操作任务尤为重要。

2、动作评估与规避风险：世界模型能够模拟并评估候选动作的潜在结果，有助于规避可能导致不良状态的动作。

3、精确动作解析：世界模型需要对动作输入进行精确解释，这反过来支持动作模型生成更有效且符合上下文的动作。

此外，动作模型也能增强视觉理解能力，从而进一步支持世界模型的视觉生成。

动作模型与世界模型相互助力

基准测试结果

由下表可以看出，即使在没有预训练的情况下，WorldVLA模型也展现出优于离散化OpenVLA模型的性能，这证明了其架构设计的有效性。

此外，模型性能与图像分辨率呈正相关。具体而言，512×512像素分辨率相比256×256像素分辨率带来了显著提升。

这一现象主要归因于Chameleon主干模型的预训练策略，其图像分词器与大语言模型组件在512×512分辨率下进行了优化。

同时，更高的分辨率自然提供了更多的视觉细节信息，这对需要高操作精度的机器人抓取任务尤为重要。

世界模型助力动作模型

此外，研究还表明引入世界模型能够显著提升动作模型的性能。

世界模型的核心功能是基于当前状态与执行动作预测环境状态变化，这一生成机制促使模型学习系统的底层物理规律，而掌握这种规律正是实现抓取等精细操作任务的关键前提。

更深入来看，世界模型赋予系统前瞻推演能力：通过预判候选动作可能产生的后果，为决策过程提供关键信息，从而优化动作选择策略，提高任务成功率。

下图的对比案例直观展示了这种优势。基线动作模型会直接移动到目标点位却未能成功抓取奶酪或瓶子，而WorldVLA会持续尝试抓取，直到确认操作成功后才移向目标位置。

动作模型助力世界模型

在生成质量上，WorldVLA显著优于纯世界模型，尤其是在生成较长的视频序列时表现更为突出。

此外，纯世界模型在多个场景中呈现明显缺陷：无法成功拉开抽屉（a）、移动盘子后导致碗消失（b）、未能将碗平稳放置在灶台上（c）。而动作世界模型在这些场景中均生成了连贯且符合物理规律的后续状态。

核心作者介绍

论文一作为岑俊，2024年8月以阿里星入职阿里巴巴达摩院。本科毕业于浙江大学，硕士和博士均毕业于香港科技大学，2023年在新加坡南洋理工大学访问过半年，曾在微软亚洲研究院（MSRA）、上海AI Lab、海康威视和阿里巴巴通义实验室实习。

One More Thing

对于VLA与世界模型，小米汽车高级研究总监、主任科学家陈龙也发表了公开看法：

VLA与WM不需要二选一，二者可以结合起来相互促进的。

一个管“抽象思考”，一个管“物理感知”，VLA+WM的结合，才是通往xx智能（AGI）的答案。

论文链接：https://t.co/ZgHyhqQnyf
Github链接：https://t.co/SxDZGuhbL7
参考链接：https://x.com/EmbodiedAIRead/status/1980216687124476256

....

#Robotaxi

从扫街榜到Robotaxi，空间智能彻底打开了高德的想象空间

这周一，一张神秘海报在科技圈引发热议。

「高德要造车了？」「高德要造飞行汽车？」「高德要推出自己的无人驾驶 / 高级辅助驾驶？」一夜之间，社交媒体上出现了对于这张海报的各种解读。

这些解读并非毫无依据。就在前几个月，高德全面转向空间智能，先后发布了「小高老师」[高德扫街榜] 等。种种迹象表明，高德正在从「地图导航」的传统定位中走出来，想把他们积累多年的搞定物理世界复杂性的能力 —— 空间智能，推向更多场景。

这些场景的想象空间很大，而「车」似乎是最自然、也最能发挥高德自身优势的起点。

11 月 5 日，海报答案揭晓。高德宣布，他们已经与小鹏汽车达成合作，未来将共同面向全球提供 Robotaxi 服务。

对高德而言，这次合作是将「空间智能 + 出行服务能力」整合并开放的关键一步，也是加速「空间智能」这一理念从概念走向现实的重要起点。

把「空间大脑」嵌入物理世界

通向 AGI 的关键一步

真正有用的智能是什么样子？具备哪些条件的技术、产品路径更容易实现 AGI？今年，这些问题被频繁拿出来讨论。「有完整上下文」「主动与环境交互并采取行动」「可以在真实环境中形成闭环」等都是经常被提及的关键词。

为什么大家看重这些点？我们知道，现阶段，OpenAI 的 GPT、Anthropic 的 Claude 虽然能流畅对话，但如果人类不主动提供「上下文」，它们对「此时此地」一无所知，不知道你在哪儿、几点、周围有什么、下一秒会发生什么。

这种「悬浮」在语言空间中的智能，缺少一些关键能力，比如空间定位能力（理解「此时此地」的上下文）、时间预测能力（基于动态变化主动推演「接下来会发生什么」）、物理交互能力（在真实世界中验证和修正认知）。而这些能力恰恰是生物智能的基础。任何生命体都必须先理解「我在哪、环境如何变化、我能做什么」，然后主动采取行动、获得反馈，才能生存进化。

而高德的空间智能，强调的恰恰就是这些能力。比如 GPT 可以制定旅行规划，但高德会告诉你从 A 点到 B 点走高速花多少时间、多少钱，高铁又是怎样一种开销，几点出发能正好赶上博物馆开门，哪家酒店在假期依然保持高性价比；GPT 可以给你普及高速应急知识，但高德可以提前几公里给你预告事故、临时施工。这是两种不同的智能形态：一个是对静态知识的压缩，一个是对动态物理世界的实时建模；一个是被动响应需求，一个是主动预测未来并采取行动。而后者，才是真实世界的运作方式。

更关键的是，高德空间智能形成了「预测 - 行动 - 验证」的闭环，真实世界的时空数据回流修正了高德空间智能模型对时空的理解，这种闭环是语言模型很难做到的。

当然，在这个方向上，国际巨头也是动作不断。比如前段时间，谷歌宣布将 Gemini 与谷歌地图整合，提供出行规划等空间智能服务。但从时间上来看，高德显然快了一步。这恰恰验证了：全球顶尖 AI 公司都在尝试跳出静态认知的范畴，让 AI 学会在空间中感知，在物理中行动。这也意味着高德选择的这条路径可能比纯语言模型更接近 AGI。

当 Robotaxi 接入空间智能

整个赛道正在被改写

Robotaxi 并不是什么新鲜事物，但空间智能的引入给这个行业带来了新的可能。

可以看到，最近几年，Robotaxi 车企在单车智能上已经取得了很大进展，但在面对复杂交通环境（如高速突发事故、临时占道施工）时，单纯依靠车辆自身近场感知能力实现的无人驾驶还有其局限性。

要突破这一局限，核心就是让车「看得更远」、接收的信号更丰富，而这正是高德「超视距」空间智能能力所能做到的。

这种「超视距」能力通过 TrafficVLM 模型来实现，就像给系统装上了一双「鹰眼」。当几公里外的道路突发事故时，TrafficVLM 会通过实时孪生交通系统第一时间感知异常，快速识别出事故位置，并预判接下来的发展：拥堵可能迅速蔓延，形成长达 3 公里的堵车路段。基于这个能力，高德能在车辆抵达拥堵区域之前就推送预警：「前方三公里突发事故，大量车辆正在向右并线，建议您提前靠右行驶，注意避让应急车辆。」

此外，云端调度系统会在拥堵发生的瞬间做出响应，立即下发观测指令，实时调取现场的视觉数据。系统通过分析图像中的深度信息，精准还原拥堵点的空间布局和交通流态势，让远在几公里外的「危险」变得清晰可见。

这种扎实的能力离不开高德对多维、多源数据的统筹能力。在过去的 20 多年里，高德沉淀了数十万亿级的时空样本，为 AI 构建了对物理世界运转规律的动态认知。此外，他们还构建了「时空信息建模 + 视觉感知监测 + 行业官方信息 + 用户分享与验证」的多渠道数据融合体系。这些数据其实就是我们前面提到的关于时空的「上下文」，只有充分掌握了这些上下文，系统才有足够的把握去主动预判进而采取行动。这为 Robotaxi 提供了进一步的安全保证。

可以说，在 Robotaxi 这条赛道上，高德正在扮演一个全新的角色，不是只提供地图数据的供应商，而是成为整个行业的「空间智能基础设施」。就像高德 CEO 郭宁所说，他们花了二十年，把理解时空复杂性这件事，沉淀成了一个极其稳定、可靠的底层服务。有了高德的加入，Robotaxi 车企无需在理解时空这件事上，再耗费巨大的精力，从而可以更加专注于车辆本身的技术创新和用户体验打磨。

这种分工协作的模式，本质上是在降低整个行业的创新门槛。当空间智能成为一种可被共享的基础设施，Robotaxi 的商业化进程将大大加速 —— 更多玩家可以进入这个领域，而不必被「如何理解这个动态世界」这种基础问题所困扰。

Robotaxi 之外

空间智能还有更多可能性

说到这里，高德和小鹏的合作逻辑已然非常清晰：Robotaxi 对安全、可靠性的极致追求决定了，空间信息是下一步的刚需，「近场感知 + 超视距信息」有望比单车智能走得更远。而高德恰好就长在「空间智能」这条路上。数十万亿级的时空样本、多维度的数据融合能力、实时孪生交通系统…… 这些不是一朝一夕能建立起来的护城河。

当然，如此丰富的能力有着更为广阔的落地空间，Robotaxi 显然只是个起点。

在高德内部，空间智能就已经全面融入，比如在国庆假期第一天调用量就超 26 亿次的「小高老师」、上线仅 23 天就迎来 4 亿用户的高德扫街榜等。

空间智能作为底层技术支撑，让「小高老师」可以基于用户的空间位置和历史行为信息分析出行偏好和生活习惯，提供更加具有可行性且更个性化的出行决策；大家信任扫街榜，也是因为它背后的空间智能底座能够通过分析人流密度、消费数据、地理位置等多维度信息来给商家排名，让这些排名信息更加真实可信。

在 to B 领域，空间智能也在产生深远的影响，比如高德与雷鸟的合作，就将空间智能技术应用于智能眼镜等可穿戴设备，佩戴者可以实时获取周围的地理信息、导航指引、周边服务等内容；「空中高德」更是利用空间智能技术，为低空经济搭建了开放、可持续的运营平台。

这些落地案例证明，空间智能正成为更多行业的时空底座。从地面到低空，从出行到消费，从个人助理到产业协同，空间智能正在重新定义我们与物理世界的交互方式。

某种意义上，我们正在见证一个新范式的诞生。过去二十年，移动互联网让信息触手可及；未来二十年，空间智能或许会让整个物理世界变得「可计算」「可预测」。

当 AI 真正理解了时空的复杂性，它就不再只是回答问题的工具，而是能够主动感知、预判、决策的智能体。

而高德，恰好站在了这个转折点上。

....

#VBench

VBench评测第一，5周访问量暴增8倍多! 这款国产AI视频生成器「压番」Runway

这可能是目前国内最好的视频大模型。」

家人们，这难道不是一部电影的切片？:24

来自@StevieMac03（I2V，图生视频）

谁能不被这头苏醒过来的小飞象萌化？

使用了图生视频（I2V）last frame功能，来自@alexgnewmedia

讲真，要不是在 X 上晃悠时突然被这几个视频「砸中」，咱还真不知道 MiniMax ，中国估值最高的大模型公司之一，又闷声整了个大活儿。

绷不住了，咋说碎就碎？

魔法降临，石膏天使也会醒来。

这些海外「自来水」们秀出的「魔法」，正出自海螺 AI 10 月才上线的新功能「图生视频」。

五周前，MiniMax 发布了视频模型 abab-video-1，并在海螺 AI 网页版上线了视频创作入口（主要是文生视频），正式入局 AI 视频赛道。

旋即，海螺 AI 在过去一个月内迎来爆发式增长，月访问量超 8 倍，增速领跑全球 AI 产品。

在 AI 产品榜·网站榜( web )上，海螺 AI 网页版 9 月访问量在两个增速榜排名第一，全球增速榜 TOP 1、国内增速榜 TOP 1，增速高达 867.41%。

MiniMax稀宇科技

海螺 AI 官网链接：https://hailuoai.com/video

封印解除，创意狂欢

2024 年，没有比 AI 视频生成更「卷」的战场。

海螺 AI「出征」不算早，上线仅过月余，就吸引了大批专业人士，包括电影导演、制片人、数字艺术家、游戏开发者、KOL 等，遍布全球 180 多个地区。

无论创作者想要创作超现实主义作品、探索幻想和科幻主题，还是深入研究动漫和抽象视觉效果，海螺 AI 都能提供广泛的选择，满足不同创作需求。

一系列恶搞英国「地狱厨神」Gordon Ramsey 的 AI 视频，火爆出圈，网友用的正是海螺 AI 。

这位以爆粗口闻名的厨师总是卷入各种奇怪场面，要么和一只夹住裆部的龙虾搏斗，要么穿着 Slayer（美国重金属乐队）的 T 恤敲打肉排，又或者坐在厨房中间的马桶上。

再配上欢快的背景音乐，整个喜剧效果拉满。

现实题材中，情绪表达一直是一个难题——无论是对 AI 、还是明星来说，但「自来水们」已册封海螺 AI 为「动画表情之王」。

AI 设计师 Pierrick Chevallier 用过后惊呼「细节和真实感已经属于另一个 Level 了。」

来自Pierrick Chevallier | IA @CharaspowerAI

新加坡电影导演 EHuanglu 用它生成了一位女性的面部特写（ T2V ），从快乐到悲伤，最后捂脸哭泣，情绪变化演绎相当到位。

该视频已有近 30 万次观看，评论区上百位网友争相抄作业。

科幻创作，也是很多专业人士、AI 爱好者一展创意的重要场景。

知名导演 Dave Clark 第一次利用海螺 AI 创作的星球大战片段（ T2V ），一度在网络疯传。

试用了最新的图生视频（ I2V ）后，这位导演直言，「我一直在等待这种类型的恐龙运动。」

这只外星生物的面部细微动作（ I2V ），可还行？

来自Alexandra Aisling@AllaAisling

动漫题材（ I2V ）也不在话下。请注意，主人公的鞋子细节。

来自@02121976_yama2

除了提供广泛的风格选择，媲美电影的质感也给海螺 AI 再上大分。

看看这个视频（ T2V ）。人物身体运动、情感表现以及整体画面质感，越来越接近纯粹的电影。

，时长02:19

来自Particle Panic@Magiermogul

据说，海螺 AI 不用特效模板，只依靠模型综合能力实现最顶级的影视特效。

有导演曾在电影中使用 3D 软件进行这种灾难场面制作，但要达到类似效果非常困难。

现在，海螺AI（ I2V ）可以轻松完成。

来自tabi_yume@U7991688174711

一些网友、YouTube 主在比较海螺 AI 与最好的视频生成器 Runway、国内快手的可灵后发现，在生成运动方面，海螺 AI 明显属于下一个 Level，尤其是人体动作的流畅性和逼真性，比 Runway、Luma AI 等竞对都要好。

有博主甚至认为，在人物动作上，海螺 AI 的性能足以媲美甚至超越市面上其他领先的 AI 视频生成器。

你看，这个视频中（ I2V ）的女人转向一侧，从眼镜、头发、衣服到所有东西，均保持一致，海螺 AI 合乎逻辑地填补了缺失信息！

一位电影制作人使用海螺 AI（ I2V ）后觉得很疯狂。

看第一帧，只能看见怪物的一只胳膊和手。但海螺 AI 居然可以自己「脑补」出新胳膊和手，还完美地融入了现有视频。

来自 Uncanny Harry AI@Uncanny_Harry

X 用户 Heather Cooper 曾发起线上投票，针对同样的提示，谁的表现最好？

评论区多数人将票投给了海螺 AI。

来自Heather Cooper@HBCoop_，提示词，"Tracking shot of a curator standing and speaking to the camera as she welcomes museum guests. Warm, inviting atmosphere."

除了生成动作方面的领先，几乎所有用户都承认海螺 AI 文本响应很好，能够较为准确地将提示词中的元素体现在视频中。

士兵转向摄像机，走向镜头，并用枪对准它，海螺 AI 抓住了每一个方位细节。

严格遵循指令中的运镜要求，也是一个典型例子。

凭借对 90 年代人物着装风格、建筑样式的准确还原，以及特殊鱼眼镜头下滑板动作的精准把控，这个视频让海螺 AI 在 reddit 中迎来好评。

目前，海螺 AI 视频模型在 VBench（视频生成模型评测框架）的第三方独立测试结果中综合排名第一，在画面质量、连贯性、流畅性等多维度均处于领先地位。

最近，香港中文大学和腾讯研究人员通过「 VideoGen-Eval 」项目，对当前主流AI视频生成模型进行了全面评估，肯定了海螺 AI 在文本控制方面突出能力，尤其在人物表情、运镜、多镜头生成和主体动态方面表现优异。

除了老司机，对于此前未接触过 AI 的新人而言，海螺 AI 也非常友好。

一位名叫 Ksenia_Galushkina 的艺术家新手，花了两天半时间，用海螺 AI 生成 80 多条视频，制作完成了这条迷你艺术片。

，时长01:07

超「戏精」的海螺 AI，要干掉好莱坞？

俗话说得好，光说不练假把式。海螺 AI 视频模型的实力究竟如何，还得看一手评测。

接下来，我们从海螺 AI 的拿手绝活开始试水。

打个响指，金箍棒秒变笛子

海螺 AI 上新的图生视频功能，不仅能准确识别上传的图片，还能准确理解超过图片内容之外的复杂文本。

换句话说，创作者可以化身任性的导演，只需下个指令，海螺 AI 就会发挥充分的想象力予以实现。

例如，让《武林外传》中的佟掌柜和邢捕头，上演一出苦情戏。

（图生视频。Prompt：女人悲伤地哭了起来，男人抱住并安慰她。）

不得不说，海螺 AI 的生成效果相当惊艳。佟掌柜眉一皱、嘴一撅，哭泣的表情非常逼真，邢捕头拥抱的动作也很自然流畅。

更难能可贵的是，虽然表情变化和动作幅度都较大，但画面并未崩坏。

再比如被网友玩坏了的「分心男友」经典梗图。我们输入 Prompt：穿红衣服的女生转身，三个人拥抱在一起。

海螺 AI 完美遵循了文字指令，红衣女子转身，和身后的一对情侣拥抱，整套动作一气呵成，没有任何卡顿。

尤其是六只胳膊交叠在一起，很容易出现扭曲变形，但它生成的视频中，几乎没什么明显的 bug。

我们还拿它各种「折腾」世界名画《蒙娜丽莎》。

（Prompt：蒙娜丽莎拿起手机，然后打起了电话。）

（Prompt：蒙娜丽莎戴上墨镜。）

海螺 AI 很会「无中生有」，手里要么掏出个大哥大式儿的手机，扣在耳边假装打电话；要么摸出个赛博朋克风格的墨镜，骂骂咧咧地架在鼻梁上，光影、色调等细节处理得都挺到位。

最让人惊喜的，还得是它对图片中物品的精准控制。

比如那张著名的地铁老人看手机的表情包。

不少人应该都见识过他吃手机的 AI 视频，这次我们来一次难度升级：老人拿着的手机变成鸡腿，并吃了起来。

上一秒老人还嫌弃地看着手机，下一秒就变成了鸡腿，然后大快朵颐。

为了体现地铁的高速运行，海螺 AI 对背景的渲染也很逼真，窗外的绿树快速后撤，环境不断变化，增强了沉浸感。

还有让猴哥的金箍棒秒变笛子，由此可见，海螺 AI 能够很好地解构指令框架和深层语义，并在视频生成中加以整合。

（prompt：男子手中的棍子变成了笛子。）

一张自拍 + 一个目的地，想去哪就去哪

在电影《镜像世界》中，导演使用大量特殊镜头和后期制作技术，让小哥从镜子中穿越到另一个时空。

而现在要完成这一效果，只需要一张自拍和一个目的地，海螺 AI 就能实现「跨屏」联动。

例如，将一位美女的照片和一幅风景图拼在一起，然后输入 prompt：女子走向绿地，站在草地上，望着美丽的湖面，镜头缓缓左移。

来瞅瞅效果：

右边的美女完美融合到左边的草地场景中，并且主体从原场景进入目标场景后，光影、色调都会完美嵌入新场景的设定。

（prompt：女子走向红色的森林列车，镜头缓缓左移。）

海螺 AI 按照文字描述，镜头随着女子的运动轨迹而移动，拼接处也逐渐消失。

轻松搞定好莱坞级特效

AI 时代，要有一颗会整活儿的心。

网友们就开发出各种特效玩法，比如 CG 合成、碎片化、变身、爆炸、流体……

要知道，特效这玩意儿，那是嘎嘎费钱。就拿《阿凡达》来说，它的总制作成本为 2.37 亿美元，其中特效成本就占了 1.5 亿美元。

财大气粗的电影制作公司可以狠砸真金白银，但对于独立电影人来说，一分钱都难倒英雄汉。

如今海螺 AI 不用特效模板，只依靠模型综合能力就能轻松实现好莱坞级别的特效，真・人人都能当导演。

X 网友 Stylez Morales 就用了一张图和一句提示词，得到一段变身特效镜头。

一个变形金刚机器人突然变身成一辆超跑，在赛博朋克的街道上疾驰，这画面，真有一种电影级别的超现实视觉效果。

（Prompt：dramatic action scene dynamic camera shot of a transformer robot running down a futuristic dystopian cybersteampunk street avoiding explosions and transforms into a highly advanced supercar to get away atmospheric cinematic hyperreal photorealistic award winning blockbuster movie directed by Michael bay）

再比如拟人特效。毛茸茸的玩具小鹿突然奔跑起来。

（Prompt：小鹿向前跑动。）

玩具小狗突然「复活」，还招朋引伴。

（Prompt：另一只小狗走进画面，两只小狗玩了起来。）

爆炸特效。《浴血黑帮》中的三兄弟大步流星往前走，身后的建筑在一片爆炸中摧毁。

（Prompt：三个男人往前走，后面的建筑爆炸。）

艺术审美在线

海螺 AI 在艺术审美上，也超能打。

它能用专业级调光与构图营造美学氛围，精细控制光影效果与景别变化，画面质感媲美大片。

比如一只拟人化的小羊在森林里跳舞。

画质高清，镜头缓慢推进，毛茸茸的小羊羔蹦跶着，耳朵也有节奏地上下扇动，效果丝毫不输迪士尼动画。

再来看看海螺 AI 制作的时尚大片。

女模特摆着各种时尚 pose，表情自然且富有表现力，头发也会随着动作而飘动，大衣纽扣等细节也处理得很精细。

（Prompt：Fashion blockbuster, the female model strikes a fashionable pose, with the camera following closely.）

我们还上传了一张戴着墨镜、身穿西装、端着酒杯的男模特图片，然后输入 Prompt：男人开心地举起酒杯，然后从画面左侧走出来一位美女。

海螺 AI 完成度相当高，画面也没有模糊、扭曲等问题。

与 Runway 同台竞技

没有对比，就没有发言权，让海螺 AI 和 Runway 打个擂台，谁强谁弱也就一目了然。

我们就先用 OpenAI 创始四人组的照片打头阵。

上传同样的照片，输入同样的提示词：The three people sitting on the sofa stand up and walk out of the frame to the left.

这是海螺 AI 的生成效果：

这是 Runway Gen-3 Alpha Turbo 的效果：

海螺 AI 严格遵循提示词，坐在沙发上的 Ilya、Greg、Murati 站起来，向左走出画面，独留 Altman 站在原地凌乱；而 Runway 生成的画面则崩得离谱，照片中的四个人飞出沙发，完全没有遵循物理世界的运动规律，甚至还出现了脑袋 360 度旋转的诡异画面。

再来一个多人物场景。

Prompt：strong man with cowboy hat in bar drinking beer with several women

海螺 AI 生成的画面，细节更丰富，场景更复杂，人物表情也更自然。

相比之下，Runway 的镜头较为简单，男子喝啤酒时，杯中的啤酒没有减少，左边女生的手部也出现了莫名其妙的动作。

Prompt：flying toward of a wide shot of an extremely large nuclear powered monster emerging from a fierce storm vortex walking over a city, epic shot in a cinematic fashion, pure destruction.

海螺 AI 的电影质感、画面丰富度更高，怪兽展现得也更生动。

Runway 则直接缺失了怪物主题，没有准确理解 prompt 的含义。

这可能是目前国内最好的视频大模型。

而在已经体验过的人群中，他们毫无例外地将海螺 AI 归入第一梯队。

如果说，9 月的海螺 AI 已经令人印象深刻，那么，新增「图生视频」的海螺 AI 又更上一层楼。它并不完美，但比大家试过的许多 AI 视频模型都要好。

神奇海螺的智慧和魔力是不容被质疑的，既然 Sora 迟迟不来，为什么不问问神奇海螺呢？

海螺AI官网链接：https://hailuoai.com/video

....

#Hugging Face

国产模型首开Hugging Face月度下载全球第一，智源BGE累计下载逾亿

近日，Hugging Face更新了月度榜单，智源研究院的BGE模型登顶榜首，这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE在短短一年时间内，总下载量已超数亿次，是目前下载量最多的国产AI系列模型。

BGE，全称BAAI General Embedding，是北京智源人工智能研究院研发的开源通用向量模型，该系列模型专为各类信息检索及大语言模型检索增强应用而打造。

自2023年8月发布首款模型BGE v1，历经数次迭代，BGE已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。BGE不仅性能综合卓越，多次大幅刷新BEIR、MTEB、C-MTEB等领域内主流评测榜单，而且始终秉持彻底的开源开放的精神，“模型、代码、数据”向社区完全公开。BGE在开源社区广受欢迎，许多RAG开发者将其比作信息检索的“瑞士军刀”。

除了个人用户，BGE亦被国内外各主流云服务和AI厂商普遍集成，形成了很高的社会商业价值。

左右滑动，查看全部内容

通用向量模型：为RAG提供一站式信息检索服务

时代背景

检索增强（RAG: retrieval-augmented generation）是自然语言处理与人工智能领域的一项重要技术：通过借助搜索引擎等信息检索工具，语言模型得以与外部数据库连通，从而实现推理能力与世界知识的整合。

早在2019年至2020年，谷歌与Meta的研究人员就在多项独立的研究工作中提出了该项技术。此后数年间，RAG被逐渐应用于问答、对话、语言模型预训练等许多场景。

然而，RAG技术真正得到广泛认知则是源于2022年11月ChatGPT的发布：大语言模型为社会大众带来了前所未有的智能交互体验。由此，行业开始思考如何应用该项技术以更好的促进生产力的发展。

在众多思路中，RAG技术是大语言模型最为成功应用范式之一。借助RAG这一工作模式，大语言模型可以帮助人们以非常自然的方式与数据进行交互，从而极大提升获取知识的效率。与此同时，RAG还可以帮助大语言模型拓展知识边界、获取实时信息、处理过载上下文、获取事实依据，从而优化事实性、时效性、成本效益、可解释性等关键问题。

向量检索

经典的RAG系统由检索与生成两个环节所构成。大语言模型已经为生成环节提供了有力的支撑，然而检索环节在技术层面尚有诸多不确定性。

相较与其他技术方案，向量检索（vector search）因其使用的便捷性而广受开发者欢迎：借助向量模型（embedding model）与向量数据库，用户可以构建本地化的搜索服务，从而便捷的支撑包括RAG在内的诸多下游应用。

在RAG兴起的2023年初，向量模型作为技术社区首选的信息检索工具被广泛使用，一时间风光无二。然而空前的热度背后，向量模型的发展却较为滞后。

传统的向量模型多是针对特定的使用场景、以点对点的方式开发得到的。在面对RAG复杂多样的任务诉求时，这些专属的向量模型由于缺乏足够的泛化能力，检索质量往往差强人意。此外，与许多其他领域的问题类似，传统向量模型的研发多围绕英文场景，包括中文在内的非英文社区更加缺乏合适的向量模型以及必要的训练资源。

通用模型

针对上述问题，智源提出“通用向量模型”这一技术构想。目标是实现适应于不同下游任务、不同工作语言、不同数据模态的模型体系，从而为RAG提供一站式的信息检索服务。实现上述构想在算法、数据、规模层面存在诸多挑战，因此，智源规划了多步走的策略。

首先，着眼于“任务统一性”这一可实现性最强同时需求度最高的能力维度，即打造适用于中英文两种最重要语种、全面支持不同下游任务的向量模型。

该系列模型被命名为BGE v1，于2023年8月份完成训练并对外发布。BGE v1经由3亿规模的中英文关联数据训练得到，可以准确表征不同场景下数据之间的语义相关性。主流基准MTEB（英文）、C-MTEB（中文）的评测结果显示，BGE v1的综合能力与各主要子任务能力均达到当时SOTA，超过了包括OpenAI Text-Embedding-002在内的众多高水平基线。其中，BGE v1在中文领域的优势尤为显著。这在很大程度上填补了中文向量模型的空白，极大的帮助了中文社区的技术开发人员。

第二，在实现任务层面的统一之后，新一版模型的迭代着眼于实现“语言统一性”。为此，智源推出了BGE M3模型，可支持100多种世界语言的统一表征，并实现各语言内部（多语言能力）及不同语种之间（跨语言能力）的精准语义匹配。

为了充分学习不同语言中的隐含信息，BGE M3模型使用了超过10亿条的多语言训练数据，并利用了大量机器翻译数据。这一训练数据的规模、质量、多样性都明显超过了此前提出的多语言向量模型。除了多语言能力，BGE M3模型还创造性的整合了向量检索、稀疏检索、多向量检索，首次实现了单一模型对三种主要检索能力的统一。同时借助位置编码及训练效率的优化，BGE M3的最大输入长度得以拓展至8192个词元（token），有效的支持了句子、篇章、以至超长文档等诸多不同粒度的检索对象。

BGE M3模型在2024年2月完成训练并对外发布。其检索质量显著超越了同一时期发布的OpenAI Text-Embedding-003模型，在MIRACL、MKQA等主流评测基准的效果均达到业内最佳。与此同时，其支持的语种范围也远超其他同类模型，对于很多语言，BGE M3的能力甚至超越了该语言此前的专属向量模型。

BGE M3一经发布便广受好评，一度位居Hugging Face Trending前三位、Github Trending前五位。Zilliz、Vespa等业内主要的向量数据库第一时间便对BGE M3进行了集成及商业化应用。

第三，基于初步的阶段性成果，BGE模型进一步发展出多个衍生版本。

其中，BGE-re-ranker、BGE-re-ranker-m3旨在实现精准排序功能，以支持多阶段、细粒度的语义检索任务。BGE visualized在文本模型之上进一步拓展视觉数据处理能力，从而实现多模态混合检索能力。BGE-ICL则首次使得向量模型具备了上下文学习能力，使之可以依照用户意图灵活适配下游任务。

相关模型不仅持续刷新MTEB在内的多个主要基准的最高记录，同时带来了算法层面的诸多创新，在海内技术社区引起广泛讨论。

社区应用

开源是智源研究院大模型研发的一贯立场。本着这一原则，BGE的模型权重、推理及训练代码、训练数据均面向社区开放。与此同时，研发团队致力于不断推动创新研究，并积极通过技术讲座、研讨会、hands-on tutorial等形式与社区互动，帮助向量检索、RAG等技术的不断发展。

BGE系列模型遵循开放的MIT许可协议，社区用户可以对其自由的使用、修改、并进一步分发。除了众多个人用户，BGE的另一大使用群体来自于社区中热门的向量数据库（如Milvus、Vespa、Pinecone）以及RAG开发框架（如Langchain、Llama Index、RAGFlow）。国内外各大云服务厂商也纷纷提供BGE的商业化服务API，这不仅进一步促进用户使用，同时创造了较高的社会商业价值。

自2024年初至今，BGE系列模型的累计下载量已超过1亿次，成为下载量最多同时也是首个下载量超过一亿次的国产开源AI模型。

未来演进：从通用向量模型到通用搜索智能

在过去一年时间里，包括智源在内的多家机构都在致力于开发“好用且易用”的检索工具，以推动相关领域的学术研究与产业应用。随着BGE等模型的不断发展，这一目标在2024年底已初步实现：对于大多数应用场景、工作语言、数据模态，开发者都可以比较容易的获取相应的开源检索工具。与此同时，RAG产业的发展也方兴未艾：各个大模型厂商都将RAG作为主要商业模式赋能千行百业，Perplexity、New Bing等基于检索增强的AI搜索引擎也为人们带来了全新的搜索体验。

然而应用侧繁荣的背后隐藏着技术层面的发展陷入相对停滞。相较于基础大模型、多模态等领域，信息检索在近期内鲜有激动人心的技术进展。

几朵乌云

在应用于RAG任务时，有三个关于检索工具的“小问题”常被提及。

一是领域适配问题：通用的向量模型在处理某些特定领域的问题时效果不佳，需要经过进一步微调方可达到可用的状态。

二是切片问题：过长的上下文需要经过切片、并独立编码，方可在RAG过程中进行使用；但是，最佳的切片尺寸往往难以选择。

三是控制机制问题：什么时候需要做检索，拿什么内容去做检索。

这几个小问题常在工程层面进行被讨论，但其背后暗含着传统检索工具（向量模型、排序模型）本质性的技术限制。

其一是静态属性。以传统的向量模型为例：输入数据会被单向性、一次到位地映射为高维向量。

无论是用户还是模型自身并不能自主依据不同任务、不同场景对模型功能进行自适应的调整。虽然此前曾有也学者提出使用提示指令（instruction）对模型进行个性化调整，但后来的实验证明，传统模型仅是机械性的记住了训练时见到过的指令，并不能像GPT那样泛化出一般性的指令遵循能力，唯有不断微调模型参数方可使之适应于新的任务场景。

因此，当前一众的通用向量模型处处都可用、但效果并非最佳。从搜索的全局视角看，他们更应该作为一种局部性的技术手段。

其二是机构化限制。当代的信息检索技术多发展自互联网的场景，因此都隐含着对数据的结构化或者半结构化的建设。

比如：一个网页、一条新闻或者一个维基段落就是一个独立的信息单元。数据天然就是可切分的，或者说数据存在平凡的切分最优解（trivial solution for optimal chunking）。

因此，传统的信息检索手段能够比较容易对数据进行编码与索引。但是这一假设在RAG场景中完全不适用。

数据会是一个超长的词元序列（如pdf文件、长视频、代码仓库、历史交互记录），而非按照某种结构定义好的知识。数据不存在所谓最优的切片策略：人们固然可以遵循某种归纳偏执对非结构化数据进行切片，但是对于某个问题有利的上下文切片策略，换做另一个问题就可能是一个非常糟糕的策略。

其三是僵化的工作机制。传统的信息检索主要针对“一问一答”这一固定的工作模式。用户需要较为清晰地表述“自己需要获取信息”以及“需要获取什么样的信息”。

也正是由于这样的限制，当前的RAG应用依然局限于简单的问答场景（quesiton-answering），在更加普遍的任务中尚不能获得取得令人满意的结果（如代码仓库的上下文管理、长期记忆、长视频理解）。

通用搜索智能

通用搜索的终极目标是能够在“任何场景、任何任务中，精准获取所需的各种形态的信息”。因此，理想的信息检索工具应具备主动发掘任务需求的能力，并能根据不同的应用场景进行自适应调整。同时，还要能够高效处理自然状态下的数据——无论是非结构化还是多模态的数据。

如何构建通用搜索智能仍然是一个未解的难题，而有效地改造和利用大模型将是实现这一目标的关键。

大模型的应用将为信息检索带来显著优势。与传统静态检索模型不同，大模型具有动态性：它们能够根据具体任务的输入进行调整，甚至通过自我提示和反思等机制进一步优化，进而更好地适应任务需求。此外，大模型能够自然处理非结构化和多模态数据，并具备主动发起信息需求的能力。

值得注意的是，2024年初曾爆发过关于RAG（检索增强生成）与长上下文大模型的讨论，表面上这两者似乎存在冲突，但实际上并无矛盾：语言模型直接处理海量信息的效率较低，必须借助有效的信息检索工具；而传统的信息检索工具智能化不足，需要更智慧的中枢来加以驱动。

因此，未来通用搜索智能的实现，依赖于大模型与检索工具的深度融合。

....

#看懂LLM推理

UCL汪军教授解读OpenAI ο1的相关方法

OpenAI 最近发布的 o1 系列模型堪称迈向强人工智能的一次飞跃，其强大的推理能力为我们描绘出了下一代人工智能模型的未来图景。近日，伦敦大学学院（UCL）人工智能中心汪军教授撰写了一份「LLM 推理教程」，深入详细地介绍了 OpenAI ο1 模型背后的相关方法。

他将在 10 月 12 号本周星期六早上于香港科技大学（广州）RLChina 2024 大会(http://rlchina.org/rlchina_2024/)上作相关内容的主题报告，并发布其团队开发的 LLM 推理开源框架以推动 o1 相关模型的发展。

链接：https://github.com/openreasoner/openr/blob/main/reports/Tutorial-LLM-Reasoning-Wang.pdf

o1 的训练使用了强化学习技术，通过显式地嵌入一个原生「思维链」（NCoT）过程，可出色地完成复杂的推理任务。也就是说，o1 在生成响应之前可通过一步步地推理实现「深度思考」。

从 OpenAI 发布的数据看，相比于之前的 ChatGPT 4o，o1 在数学和编程任务上的表现要强 5 倍。它在竞争性编程中排名第 89 位，在美国著名的数学奥林匹克资格赛中名列前 500 名，并在物理、生物和化学基准测试中超越了人类博士级的准确度。

o1 的一个关键创新是它允许在推理过程中花费更多时间进行推理，这标志着一种范式转变：从快速、直接的反应转向缓慢、深思熟虑、多步骤的推理时间计算。见图 1。

图 1：推理时间计算。(a) 自回归 LLM 是直接基于给定问题生成答案。(b) 思维链和逐步思考的概念则涉及到在得到最终答案之前，整合中间推理步骤。这些重复步骤操作允许 1) 不断重复访问之前的输出，2) 逐步推进到后续推理阶段，3) 探索多个推理路径或轨迹。

有趣的是，在指导人类决策和行为方面，人类认知中存在两种相关但不同的认知处理模式，其中每种都有各自不同的大脑回路和神经通路，见图 2。

图 2：人类认知和 LLM 的类比。(a) 和 (b) 人类有意识或无意识控制的行为依赖于部分不同的大脑回路。(a) 人类的无意识控制由一些专门的大脑区域维持，例如前脑岛和前补充运动区（pre-SMA）。(b) 而自主控制则涉及更大的网络，激活顶叶和前额叶内的许多区域。无意识控制通常快速而本能，通常由自动过程驱动，而有意识控制往往涉及更审慎、计算和深入的思考，需要仔细的反思和透彻的分析。

系统 1 思维快速、自动且直观，毫不费力且通常是无意识的。它依赖于能够快速处理的神经通路，尤其是在需要快速反应或认知资源受限的情况下。

系统 2 思维是深思熟虑的、费力的和有意识的，涉及集中注意力和分析式推理。它处理信息的速度更慢，常用于复杂的问题求解、逻辑推理和决策任务。

o1 的诞生非常激动人心，因为大语言模型（LLM）现在不仅能使用学习到的模式进行快速响应，而且还能通过思维链或其它形式的搜索等机制模拟复杂的推理过程。这就类似于人类的更深度的、步步执行的思考方式。

也正因如此，OpenAI ο1 在科学、编程和数学领域都取得了相当卓越的表现。此外，o1 在 AI 安全和对齐方面也取得了进展。该模型的思维链推理为整合人类价值观和原则提供了新的机会，从而可提高安全评估和越狱测试的性能。

事实上，在 LLM 领域，思维链推理和分步骤思考方法并非新技术。之前已有研究表明，如果在输入中添加「describe your reasoning in steps」或「explain your answer step by step」这样的指令或提供少样本示例，就可以让 LLM 生成中间推理步骤，进而提升其解决问题的能力，尤其是对于数学和编程任务。

但是，这些方法都基于已有的 LLM，并没有将思维链嵌入到模型本身之中。因此，LLM 无法内化这种学习能力，导致许多研究者在探索如何将其直接整合进模型训练中。之前人们提出的方法包括收集专门的训练数据、构建奖励模型和增加解码的计算复杂度，但目前还没有一种方法能大规模地在性能上取得重大突破。

汪军教授表示，我们目前尚不清楚 OpenAI 的 o1 创新是否植根于模型本身，还是依然依赖于外部提示系统。如果它确实涉及在架构中明确嵌入分步推理，那么这将是一个重大突破。

在大幅提高性能的基础上，OpenAI o1 还表明，传统上在训练期间应用的扩展原则现在也与推理阶段相关了。

这样一来，就需要考虑给推理阶段多分配一些算力了。如果能让 LLM 通过增加测试时间计算来提升输出，那便是朝着自我改进式智能体（self-improving agent）迈出的重要一步。

这个研究方向被汪军教授暂且称为 LLM 原生思维链（LLM-Native Chain-of-Thought/NativeCoT），其应当能够固有地反映人类系统 2 思维所具有的深思熟虑的分析过程。

不过，考虑到 o1 是一个闭源系统，因此它究竟是如何实现如此强大的推理能力的还依然是一个谜。

在本文中，汪军教授全面回顾了可能的相关文献，并探讨了这一突破背后可能的核心技术和方法。此外，他还提出了基于近期研究成果实现相应开源版本的方法，以加速该领域的研究。

下面首先将介绍典型自回归 LLM 常遇到的两个挑战，以强调对世界模型和思维链机制的需求。然后将给出一个 MDP 公式，用于将原生 CoT 整合进 LLM（进而得到类似 o1 的推理模型）；同时还会探索其实现细节。最后会以文献评论作结，并给出未来的研究方向。

自回归 LLM 面临的挑战

这里就略过自回归 LLM 的基础介绍，重点来看汪军教授提到的两个挑战。

第一个挑战是预测下一 token 的目标。虽然有些人认为预测下一 token 可能会造就通用智能（AGI），但汪军教授表示，仅仅专注于预测下一个词会限制智能的潜力。为了得到更深层次的智能，可能需要不同的优化目标和学习范式。

传统自回归 LLM 面临着一个关键挑战：如何使系统超越其训练数据的界限并开发出新颖的、可能更优的策略？因为智能体的表现常常受限于其学习的演示的质量，无法超越其训练数据所体现出的技能水平。

但是，如果使用数据来开发更深度的理解或世界模型，就有可能实现复杂策略的演进，进而超越训练数据的限制。

世界模型（world model）代表了智能体对环境的理解。学习和优化这个世界模型，再加上模拟潜在结果的能力，有望极大提升 AI 智能体的能力。这些内部世界模型所提供的模拟能力将能实现深度思考（模拟），从而增强智能体的推理和泛化能力。基于模型的策略（如蒙特卡洛树搜索（MCTS））是这种方法的经典例证。向系统 2 型推理的过渡（o1 可能就是一个例证）依赖于建立某种类型的世界模型并利用强化学习（奖励最大化），而不仅仅是最小化预测误差。这种方法的转变可能是 OpenAI o1 强大推理能力背后的关键过渡技术之一。

通过将 LLM 的预测能力与强化学习和世界建模的策略深度相结合，像 o1 这样的 AI 系统可以解决更复杂的问题和实现更复杂的决策过程。这种混合方法既可以实现快速模式识别（类似于系统 1 思维），也可以实现深思熟虑的逐步推理（系统 2 思维的特征）。这也许能解释 o1 表现出的强大性能。

第二个挑战则来自计算复杂性角度：LLM 运行时受到二次计算复杂性的约束。当 LLM 遇到多步数学难题时，这种约束会变得尤为明显。

但是，思维链却有望减轻这一限制。其可通过一系列「思维」步骤来扩展响应，由此支持一定数量的额外计算资源；它本质上是一个有限的内存，支持写入但缺乏删除或覆盖的能力。尽管该方法颇具潜力，但它仍然不是一个完全动态的内存系统，并且没有原生地融入解码阶段。这种必要性使得研究社区亟需超越当前 Transformer 解码器网络能力的高级计算架构。事实上，存在这样的需求：在推理和解码阶段实现类似于蒙特卡洛树搜索（MCTS）的基于模型的复杂策略。

这种先进的推理时间计算系统将使 AI 模型能够维护和动态更新问题空间的表征，从而促进更复杂的推理过程。这种方法与认知科学中的工作记忆（working memory）概念一致；这对于复杂的问题解决和深度思考至关重要。通过整合这些功能，AI 系统可以模拟多个步骤，评估不同的场景，并做出更明智的决策 —— 类似于人类专家推理的深思熟虑过程。

将 LLM 推理看作是马尔可夫决策过程

为了建模问答或问题解答等任务中的推理过程，这里要将推理的结构调整成 Q → {R} → A 序列的形式。

Q：表示启动推理过程的问题或提示词；
R：表示为了得到解答，模型生成的中间推理步骤的序列；
A：表示推理步骤完成后得到的最终答案或解。

这种结构允许 LLM 生成一系列推理步骤，从逻辑上将问题 Q 与最终答案 A 联系起来。

汪军教授表示，可以将该推理过程定义为一个马尔可夫决策过程（MDP）。MDP 能为建模推理提供一个灵活的框架。它允许模型自回归地生成迈向最终答案的顺序推理步骤，同时还通过在每个步骤采样多条路径来实现树结构以获得备选推理轨迹。通过结合顺序推理和分支推理这两种方法，该模型可以探索各种解决方案，从而创建一个多功能且全面的推理过程。

现在可以使用状态、动作、策略和奖励来描述这个推理过程了。其中 LLM 的任务是逐步生成与推理步骤和最终答案相对应的连贯 token 序列。

图 3：在该形式的马尔可夫决策过程中，LLM 的任务是逐步生成推理步骤和问题的最终答案。其中，LLM 策略的运作方式是生成 token，而，这些 token 可以形成更高级的推理结构。状态表示迄今为止的推理步骤序列，动作对应于选取新推理步骤或最终答案。LLM 策略控制动作的选择，过程奖励模型（PRM）的作用是提供有关推理步骤和最终答案质量的反馈。通过优化策略以最大化奖励，LLM 可以在 PRM 的引导下生成准确且有意义的推理过程。

其中状态表示迄今为止的推理步骤顺序，而动作对应于选择新推理步骤或最终答案。LLM 策略控制着动作的选择，而过程奖励模型（PRM）则提供有关推理步骤和最终答案质量的反馈。通过优化策略以最大化奖励，LLM 可以在 PRM 的引导下生成准确且有意义的推理过程。

详细的论证过程这里就不多谈了。总之，可以基于此得到 LLM 的世界模型的定义：

定义 1：LLM 的世界模型可以定义为 (𝒯, 𝒱)，其中：

𝒯 (s_t, a_t) 是转换模型，它是确定性的，因为当前状态 s_t 和动作 a_t 仅能定义唯一下一状态 s_(t+1) ，因此 s_(t+1) = s_t + a_t。
𝒱 (s_t, a_t) 是过程奖励模型（PRM），用于评估在状态 s_t 下动作 a_t 的质量。它能反映生成的推理步骤或 token 在得到最终答案过程中的合适程度和有效性：𝒱 (s_t, a_t)=𝑣_t。

由于转换是确定性的并且直接遵循策略，因此过程奖励模型 𝒱 (s_t, a_t) 封装了 LLM 与其环境之间的整个交互，可评估每个推理步骤或 token 对所得出的最终答案的贡献程度。

实际实现

接下来将介绍如何收集中间推理数据，并使用它来训练过程奖励模型（PRM），再利用 PRM 来训练 LLM 策略，并在解码阶段引导推理过程。

自动获取推理步骤数据

为了模拟出高级推理能力，就需要推理轨迹数据。最直接的方法当然是人工标注推理步骤，但这种方法缺点也很明显。

一种无需人类监督，特别有效的收集数据和提升 LLM 推理的方法是 Self-Taught Reasoner（STaR）。

使用 STaR 方法时，模型会自主生成中间推理步骤并使用它们来验证其内部推理能力。更方法的基础是 LLM 有能力通过生成中间步骤 {R_1, R_2, . . . , R_n} 从问题 Q 推理到最终答案 A，并使用自己的策略验证正确性。

也就是说，该方法首先会采用 LLM 的策略 π_LLM，基于初始问题 Q 和最终答案 A 来生成推理步骤 {R}。

生成 {R} 之后，就要验证其正确性。这里可以再次使用这个 LLM 策略。

之后，收集到的 {Q, {R}, A} 就可进一步用于训练策略 π_LLM，提升有效推理步骤的生成过程。

当推理序列较长时，还会用到蒙特卡洛树搜索（MCTS）。

自我增强式训练

如图 4 所示，PRM v (s) 和 LLM 策略 π_LLM 可以相互增强以实现自我提升。

图 4：将 PRM 的价值函数与 LLM 的策略生成相结合，可确保得到的结果是经过引导且可控的。在训练过程中，LLM 策略得到的生成结果和 PRM 提供的评估相互增强，从而可让这两个组件不断自我改进和优化。

PRM 的价值迭代

有了推理数据之后，下一步就是训练世界模型了，也被称为过程奖励模型（PRM）。也就是说，由于状态转变是确定和已知的，因此重点就变成了学习一个之后可用于引导搜索、推理和解码过程的通用奖励模型。

该奖励模型通常被称为验证器，记为 vPRM (s)，可以使用有标注的推理步骤数据集进行训练。其训练通常涉及根据推理步骤的正确性优化一个分类损失函数：

还有另一种方法，是将 PRM 视为一个可以通过价值迭代方法训练的价值函数，使其能够预测累积奖励并通过最佳动作选择指导推理过程。

假设有一个推理过程，其中状态 s 表示当前状态，并且其整合了之前的所有状态。该价值迭代方法的目标是学习一个由 θ 参数化的价值函数 V_θ (s)，其可预测从状态 s 开始的预期累积奖励。该价值函数可通过评估不同动作的潜在结果来指导推理过程。r_φ (s) 是奖励函数，其会根据中间推理步骤或最终答案的正确性为状态 s 分配一个标量奖励。γ 是折扣因子，决定了未来奖励的相对重要性。该 PRM 的贝尔曼方程为：

为了学习该价值函数的 θ，这里将 TD 损失函数定义成当前值与贝尔曼目标之间的平方误差：

LLM 策略的策略迭代

得到了 PRM 之后，就可以训练 LLM 策略以提升其推理能力了。这需要超越传统监督学习框架的方法。通过整合在线强化学习来优化推理任务，PRM 在此过程中发挥着重要作用。

这里来看看 Group Relative Policy Optimisation（GRPO），即分组相对策略优化。

假设对于每个问题 Q = q，策略都会生成推理步骤 {o_1, o_2, . . . , o_G}，每个输出 o_i 由多个步骤 {a_{i,1}, a_{i,2}, . . . , a_{i,Ki} } 组成，其中 K_i 是输出 o_i 中的推理步骤（或 token）总数。现在，可以构建通过 PRM 学习 LLM 策略的 GRPO 了，如下所示。

对于每个问题 q，GRPO 从旧策略 π_θ_old 采样一组输出 {o_1, o_2, . . . , o_G}，目标是通过最大化以下目标来优化策略：

GRPO 不会将 KL 惩罚直接纳入奖励，其规范策略的方式是将当前策略 π_θ 和参考策略 π_θ_ref 之间的 KL 散度直接添加到损失函数中。这可确保更新后的策略在训练期间不会过度偏离参考策略，从而有助于保持稳定性。

这种 GRPO 形式是通过利用推理步骤和最终步骤中的分组相对奖励来优化 LLM 策略，专门适用于通过过程奖励模型的推理任务。归一化的优势函数（advantage function）是根据相对性能计算的，鼓励策略偏向在一组采样输出中表现更好的输出。此外，KL 正则化可确保更新后的策略与参考策略保持接近，从而提高训练稳定性和效率。该框架提供了一种稳健的方法，可通过基于 PRM 的优化来指导 LLM 推理。

另外，还有 token 级 DPO 等不使用 PRM 的更高效的离线方法，详见相关论文《Token-level direct preference optimization》。

推理时间计算

训练完成后，LLM 策略必须在推理过程中高效地生成输出。LLM 常用的方法是自回归，即根据之前的 token 逐一生成新 token。但是，对于推理任务，还必需更复杂的解码技术。

为了在效率和效果之间取得平衡，有研究发现，波束搜索等更灵活的方法有利于推理任务。对于更复杂的推理任务，可以使用 MCTS 等向前看的模型。

MCTS 可模拟多条推理路径，并根据奖励系统对其进行评估，选择预期奖励最高的路径。这允许模型在推理过程中探索更大范围的可能性，从而增加其获得最优解的机会。使用 MDP，可以从形式上定义其推理过程结构。

定义 2：原生思维链（NCoT）是指大型语言模型（LLM）固有的推理能力，这让其无需外部提示词便可以自动执行逐步式的结构化推理。该能力可以表述为一个马尔可夫决策过程（MDP）(S, A, π, R)，其中

S 是状态空间，表示生成到给定位置处的 token 序列或推理步骤；
A 是动作空间，由潜在推理步骤 R_t 或最终答案 A 组成；
π_LLM (a_t | s_t) 是控制动作选择的策略（也是 LLM），其可根据当前状态 s_t 确定下一个推理步骤或最终答案；
R (s_t a_t) 是过程奖励模型（PRM，其作用是根据所选动作 a_t 的质量和相关性分配奖励 r_t，以引导推理过程。

该模型既可以通过展开 MDP 来遵循顺序推理路径，也可以通过在每个状态下采样不同的推理步骤来探索多个轨迹，形成树状结构（图 5）。过程奖励模型 R 提供了对该空间的引导搜索，其控制推理轨迹的方式是支持能得到更有意义或更正确的推理步骤的动作。

图 5：借助 PRM，LLM 可以通过三种方法执行非自回归推理：1) 采样多条推理轨迹，2) 对潜在推理路径的树结构进行蒙特卡洛搜索，3) 结合前两种方法来增强推理的灵活性和稳健性。

#scaling-with-vocab

大模型的词表大小，同样适用于Scaling Law

第一作者陶超凡（Chaofan Tao）是香港大学（HKU）的四年级博士生，导师是黄毅教授和罗平教授。他本科毕业于电子科技大学的英才荣誉学院。他的研究论文发表在ACL、EMNLP、ECCV、NeurIPS、ICML、T-NNLS等期刊和会议上。他获得了 ACL 2022 年的杰出论文奖。陶超凡的研究兴趣包括：1) 高效机器学习与模型加速：以低成本对模型进行高效调优和部署。2) 支持多种任务的通用大型模型，涵盖不同模态。

本文是一篇发表在 NeurIPS 2024 上的论文，单位是香港大学、Sea AI Lab、Contextual AI 和俄亥俄州立大学。论文主要探讨了大型语言模型（LLMs）的词表大小对模型性能的影响。

论文：https://arxiv.org/abs/2407.13623
代码：https://github.com/sail-sg/scaling-with-vocab/
Demo （快速预计合适的词表大小）：https://huggingface.co/spaces/sail/scaling-with-vocab-demo

摘要

研究大型语言模型（LLMs）的扩展法则（scaling laws）时，以前的工作主要关注模型参数和训练数据的大小，而忽略了词表大小的作用。本研究通过训练包含不同词表配置的模型（参数范围从 33M 到 3B，字符数最多 500B），提出了三种方法来预测计算最优的词表大小：基于 FLOPs 的、基于导数的和基于损失函数参数拟合的估计方法。研究结果表明，更大的模型应该配备更大的词表，且在给定算力的情况下，最优的词表大小是有上限的。例如，预测 Llama2-70B 的最优词表大小应该是至少 216K，远大于其实际的 32K。通过在不同 FLOPs 预算下训练 3B 参数的模型验证了这些预测，发现仅仅把原始词表的大小替换成预测的最优词表大小，就可以提高模型在多个下游任务的性能。

本文发现，模型中的非词表参数

与相应的最优词表参数

之间的关系遵循幂律，其中

的增长速度应慢于

，即

。实证结果与我们所提出的 3 种预测最优词表大小的方法的结果基本一致。其中较大的圆圈表示较高的损失值。这里

指的是词表大小。

第 1 章引言

LLMs 通过在大量文本语料库上进行预训练，利用巨大的计算资源，已经取得了显著的性能。以往的研究主要集中在模型参数、训练数据量和计算资源（如 FLOPs）的变化对模型性能的影响，而忽略了词表大小这一重要因素。事实上，词表大小对语言模型的性能有着不小的影响。所以，本研究旨在填补这一空白，探讨词表大小对 LLMs 性能的影响，并提出预测最优词表大小的方法。

如图，我们提出 3 种预测最优词表大小的方法 (基于 FLOPs 的、基于导数的和基于损失函数参数拟合的估计方法)，并且列出了当前主流的大型语言模型（LLMs）的词表参数和预测最优词表参数的关系。当前大多数 LLMs 的词表参数由于词表大小小于预测的最优值而处于次优状态。

第 2 章预备知识

2.1 扩展法则

扩展法则 (scaling laws) 考虑了一个计算预算

（以 FLOPs 衡量），目标是在模型参数 N 和训数据量 D 之间最优地分配这个算力的预算：

通常情况，我们使用语言模型损失

来度量语言模型：

其中

是在给定上下文

和词表大小为

的分词器的情况下单词

的输出概率。

2.2 考虑词表的扩展法则

对训练数据量的统计方式

因为对于同一个训练语料和给定的分词算法，不同的词表大小会得到不同的词元量 (D)，因此我们以训练字符量（H）来衡量训练数据量。为了将我们的发现与现有的关于扩展规律的研究联系起来，我们需要能够从 H 映射到 D。这种映射是分词器的压缩比，可以通过

计算。分词器需要表示 H 的标记越多，D 就越大，因此压缩得越少。我们设计了一个简单的函数

来仅从选择的词表大小 V 估计这个比例：

在基于 FLOPs 和损失函数的估计方法中，我们可以直接统计出训练的词元数量。在基于导数的估计方法，我们是通过 FLOPs 关于

的解析式来导出最优的

，而不是使用具体的大量实验数据来拟合。这时候，我们需要使用

来估计 D 和 H 的关系。附录中我们可视化了拟合结果，并展示了我们的近似方法适用于不同的分词器，并且对不同的词表大小具有鲁棒性。

对词表大小非敏感的损失

语言模型损失

或者常用的困惑度(perplexity)是随词表大小变化而变的，因此在模型词表大小是非固定的情况，我们不能直接在扩展法则中直接采样这个损失来度量模型。为了公平地评估不同词表大小的模型，我们采样了一种归一化损失函数

，来消减由词表大小对语言建模损失带来的影响：

其中，

是给定上下文

和词表大小V的条件下，词

的输出概率。

是词

在分词之后的语料库中的出现频率。

备注：BPC （平均每字的比特数）也是一个值得尝试的、对词表大小非敏感的指标，本文认为

和 BPC 分别是从词元（token）和字符 (character) 的角度对语言建模损失进行归一化，达到对词表大小非敏感的特点。

第 3 章分析：为什么最优词表大小受计算限制

我们分析了随着词表大小的增长，模型性能先是提高然后降低的原因。词表大小

对语言模型的性能的影响：

较小的 V：增加词表大小可以提高标记化分词的效率，也就是用更短的词元去表示文本，从而提高模型性能。

较大的 V：逐渐增加词表大小的时候，分词效率提高的收益会逐渐减少，且可能导致词表有关参数的欠拟合，特别是针对低频词的词表征。

进一步地，我们研究了在固定 FLOP 预算下，词表如何影响损失，并发现对于每个 FLOPs 预算，存在一个使损失最小化的最优词表大小。

图上是在不同 FLOP 预算下，不同词表大小的损失曲线。对于每个预算，都存在一个最小化损失的最优词表大小。并且随着 FLOPs 预算的增加，这个最优词表大小也会增加（向右移动）。

第 4 章：估计模型的最优词表大小

在第 4 章中，论文描述了三种不同的方法来估计大型语言模型（LLMs）的最优词表大小。这三种方法包括：通过 IsoFLOPs 估计幂律、基于导数的快速估计和损失公式的参数拟合。每一种方法都旨在预测在给定计算预算下，最优的词表大小应该是多少。不失一般性的，我们建立了词表大小

和词表参数

的关系，

，其中 d 是词表征的维度。

4.1 方法 1：通过 IsoFLOPs 估计

这一方法的核心思想是通过保持 FLOPs 不变，变化词表配置，来探索词表大小对模型性能的影响。本文定义了 6 组模型，每组的非词表参数（模型总参数 - 词表参数）

从 33M 到 1.13B 不等。在每组中，只改变词表大小 V，从 4K 到 96K 选择了 10 种大小的词表，并在相同的 FLOPs 预算下评估不同的模型。模型架构遵循 Llama 模型的设计，训练数据集为 SlimPajama，一个大规模的文本清理和去重数据集，采用了 bfloat16 混合精度训练。本文选择了每个 FLOPs 预算下归一化损失最小的数据点，曲线如图所示：

我们发现了非词表参数

、词表参数

和训练字符数

与 FLOPs 预算

之间的关系可以用幂律表示。基于以前的研究 [1]，数据量和模型参数在最优的算力分配下应该同比例的放缩，我们在拟合过程中，加入了假设：对于词表参数

和训练字符数

，都和 FLOPs 保持同样的放缩比例。通过拟合，本文得到了以下幂律关系：

从拟合结果我们可以看出：

LLMs 对数据需求量大。与非词表参数
相比，从业者应分配更多计算资源用于训练数据
词表参数与 FLOPs 呈幂律关系（
）。随着模型计算量的增加，更大的词表大小增强了模型理解更多样化文本的能力，因此词表大小对模型扩展至关重要。
词表参数
应比非词表参数
增长得更慢。这种差异可以从它们的幂律指数中看出，即
。

4.2 方法 2：基于导数的快速估计

这一方法的核心思想是通过计算 FLOPs 相对于词表大小的导数，并找到零点解，来估计最优词表大小。根据前人的研究，transformer 架构的训练 FLOPs 可以近似表示为：

通过对 V 求导，我们可以得到：

通过设置导数等于 0，我们可以求解最优的

，也就是

。这个方程的解将给出在给定的 FLOPs 预算下，能够使 FLOPs 最小化的词表大小。这种方法的优势在于它不需要大量的实验数据，而是通过数学推导和数值方法来快速估计最优词表大小。这对于初步模型设计和快速迭代非常有用。

在具体的使用过程，我们是通过导数得到的最优的词表参数

和非词表参数

拟合出了一个符合幂律参数，也就是

中的

，从通过一组轻量化小模型的实验数据点找出一组满足

和最优的

作为初始点，结合

，去预测任意

情况下的最优词表参数，详见原文。

4.3 方法 3：损失公式的参数拟合

这一方法的核心思想是直接预测给定非词表参数、词表参数和训练字符数量的损失，然后通过找到损失相对于词表的最小点来预测最优词表配置。本文设计了一个依赖于词表大小的损失函数：

其中，

是可学习的参数。

通过收集不同非词表参数、词表大小和训练数据量的实验点，并使用这些点来拟合上述损失函数的参数，我们拟合出这个有

有关的损失函数

，从而可以通过对

关于

求导的方式，找到最优的

。这个方法的好处在于，它可以给出任意的非词表参数

和训练数据量

的组合情况下的局部最优的词表大小，而不仅仅是

和训练数据量

等比例放缩情况下的最优词表大小。

第 5 章进一步讨论

5.1 预测语言模型的理想词表大小

在这一节中，本文报告了基于三种方法预测的最优词表参数和大小，遵从以前的关于 scaling laws 中数据量和模型参数的算力分配有关工作 [1]，训练数据的量与非词表参数等比例地随 FLOPs 预算缩放。

我们报告了在给定

的情况下，通过提出的三种方法预测的最优词表参数

和词表大小

。我们假设训练 FLOPs 被最优分配，即非词表参数和训练数据按相同比例扩展。结果分析：

预测结果显示，随着非词表参数的增加，最优的词表参数和词表大小也随之增加。
这表明对于更大的模型，更大的词表是必要的，以充分利用模型的容量。

值得注意的是，主流 LLMs 通常分配给词表参数偏少。然而，学界和工业界已经开始转向更大的词表大小。例如 Llama3 的词表大小从 Llama2 的 32K 增加到 128K。然而，扩展数据仍然是最关键的部分，解决数据稀缺问题应成为未来工作的重点。

为了验证这些预测，本文在 3B 参数的模型上进行了实验，这些模型在不同的 FLOPs 预算下进行了训练。实验中，本文比较了使用常规词表大小（例如 32K）与使用预测的最优词表大小的模型性能。性能通过多个下游任务进行评估，包括 ARC-Challenge、Hellaswag 等。实验结果表明，使用预测的最优词表大小的模型在多个任务上一致地优于使用常规词表大小的模型。

5.2 训练数据量对最优词表大小的影响

我们之前的实验主要集中在训练计算预算为主要约束条件的情况下，我们寻求将其最优分配给参数和训练数据。这是扩展规律研究中的典型设置。然而，在实践中，我们经常面临数据稀缺或者数据相对于模型大小过量的情况，迫使我们进行算力次优分配时候的训练。为了验证我们的方法 3 能够处理这些实际场景中由于训练数据量变化对最优词表大小的影响，我们将词表大小为

的模型与方法 3 预测的最优词表大小

的模型进行了比较。如表所示，我们的预测可以根据不同的训练数据量，有效调整词表大小，实现了更好的模型。

第 6 章结论

本文通过实验验证了词表大小对语言模型性能有显著影响。他们发现，对于给定的计算预算，存在一个最优的词表大小，能够最大化模型性能。词表大小是影响模型性能的关键因素之一。更大的模型受益于更大的词表，因为它们需要更丰富的词表来表达更复杂的语言模式。另一方面，词表参数应该比非词表参数增长得慢，但仍然对性能至关重要。论文提出了三种方法来预测最优词表大小，这些方法都基于计算预算和模型性能之间的关系，论文强调了在设计和训练 LLMs 时，需要综合考虑模型参数、训练数据和词表大小。本文建议在分配计算资源时，应该考虑到词表大小的影响。

....

#AMD发布最强AI芯片

对标英伟达Blackwell，2025年上市

未来的大模型，或许都是 A 卡来算的？

从 PC 端到服务器，AMD 一次发布就完成了对 AI 计算的全覆盖。

今天凌晨，AMD 首席执行官苏姿丰（Lisa Su）在旧金山举行的 Advancing AI 2024 活动上发布了全新一代 Ryzen CPU、Instinct AI 计算卡、EPYC AI 芯片等一系列产品。

苏姿丰表示，在未来，人工智能将提高每个人的生产力。通过实时翻译等功能，人与人的协作将变得更加高效，无论创作者还是普通用户，生活都将变得更轻松。除此以外，更多的 AI 任务将在本地进行处理，以保护你的隐私。

基于这样的愿景，新一代 AMD Ryzen AI Pro PC 将支持 CoPilot+，并提供多至 23 小时的电池续航时间。

「我们一直与 AI PC 生态系统开发人员密切合作，」苏姿丰说道，并指出到今年年底将有 100 多家公司致力于开发 AI 应用程序。

Ryzen AI Pro：AI PC 专用 CPU 问世

首先是 CPU。AMD 今天推出了专为 PC 设计的全新 Ryzen AI Pro 300 系列处理器。新款 CPU 采用 4nm 工艺打造，使用该公司最新的微架构，结合 GPU 与 Microsoft Copiliot+ 认证的神经处理单元 (NPU)，可实现 55 TOPS 性能的 AI 算力。

AMD Ryzen AI Pro 300 系列 CPU 处理器代号为 Strix Point，最多有 12 个 Zen 5 核心、RDNA 3.5 GPU，最多 1024 个流处理器，包含最新的 XDNA 2 NPU，性能为 50 TOPS – 55 TOPS（8-bit），以及一组适用于商用 PC 的功能，如远程管理、增强的安全功能（内存加密、安全启动过程、AMD 安全处理器 2.0、TPM 2.0）、云恢复和看门狗定时器。

目前，AMD 的 Ryzen AI Pro 300 系列产品线包括三种样式：最高端的 12 核 Ryzen AI 9 HX Pro 375，配备 55 TOPS NPU；速度稍慢的 12 核 Ryzen AI 9 HX Pro 370，配备 50 TOPS 算力的 NPU；以及八核的 Ryzen AI 7 Pro 360，配备 50 TOPS 的 NPU。

与英特尔 Core Ultra 7 165U 相比，最高版本的 Ryzen AI 9 HX PRO 375 可提供高达 40% 的性能提升和高达 14% 的生产力提升。

与往常一样，HX 版本的 TDP 高达 55W，面向高性能笔记本电脑（包括一体机），而常规处理器的 TDP 可以固定为低至 15W。

与上代 AMD Ryzen Pro 7040 系列处理器相比，Ryzen AI Pro 300 不仅具有显著更高的通用和图形性能，而且还支持微软的 Copilot+ 功能，其将在 11 月的下一次 Windows 更新中推出。AMD 在发布活动中宣传了 Copilot+ 的实时字幕和实时翻译、Cocreator 以及颇具争议的 Recall 功能 —— 这些都是新 CPU 支持的关键能力。

除此之外，其中的 NPU 还支持各种第三方软件供应商带来的 AI 增强应用，例如来自 Adobe、Bitdefender、Blackmagic Design 和 Grammarly 等公司的产品。

AMD 表示，到 2025 年，Ryzen AI Pro 平台将搭载于超过 100 款产品中，惠普和联想将率先在其商用 PC 上采用 Ryzen AI Pro 300 系列处理器。

对标英伟达最强 AI 芯片：Instinct MI355X 加速卡

最近，全球 AI 芯片供不应求，AMD 已成为 GPU 领域的重要玩家，今天该公司宣布了最新的 AI 加速器和用于 AI 基础设施的网络解决方案。

具体而言，AMD 推出了 AMD Instinct MI325X 加速器、AMD Pensando Pollara 400 网络接口卡 (NIC) 和 AMD Pensando Salina 数据处理单元 (DPU)。

AMD 声称 AMD Instinct MI325X 加速器为 Gen AI 模型和数据中心树立了新的性能标准。

AMD Instinct MI325X 加速器基于 AMD CDNA 3 架构构建，旨在为涵盖基础模型训练、微调和推理等要求苛刻的 AI 任务提供性能和效率。

AMD Instinct MI325X 加速器提供了业界领先的内存容量和带宽，256GB HBM3E 支持 6.0TB/s，比英伟达 H200 提供了高 1.8 倍的容量和 1.3 倍的带宽。与 H200 相比，AMD Instinct MI325X 的峰值理论 FP16 和 FP8 计算性能提高了 1.3 倍。

这种领先的内存和计算性能，较于英伟达 H200，能够在 FP16 精度下，为 Mistral 7B 模型提供高达 1.3 倍的推理性能，在 FP8 精度下为 Llama 3.1 70B 模型提供 1.2 倍的推理性能，同时在 FP16 精度下为 Mixtral 8x7B 模型提供 1.4 倍的推理性能。

AMD Instinct MI325X 加速器目前有望在 2024 年第四季度投入生产，预计从 2025 年第一季度开始将在包括戴尔、Eviden、技嘉、惠普、联想等在内的众多平台提供商的系统中广泛使用。

此外，AMD 还更新了其年度路线图，即下一代 AMD Instinct MI350 系列加速器。基于 AMD CDNA 4 架构，AMD Instinct MI350 系列加速器的推理性能比基于 AMD CDNA 3 的加速器提高了 35 倍。

具体来说，MI300X 目前能提供 1.3 petaflops 的 FP16 算力和 2.61 petaflops 的 FP8。相比之下，MI355X 将分别将其提升至 2.3 和 4.6 petaflops。与上一代相比，这个数字提高了 77%。

MI355X 不仅拥有更多的原始计算能力。FP4 和 FP6 数字格式的引入使潜在算力相对于 FP8 再次翻倍，因此单个 MI355X 可提供高达 9.2 petaflops 的 FP4 计算能力。这是一个有趣的数字，因为英伟达 Blackwell B200 也提供了 9 petaflops 的密集 FP4 计算能力 —— 功率更高的 GB200 可以为每个 GPU 提供 10 petaflops 的 FP4。

仅基于该规格，AMD 的 MI355X 可能提供的 AI 计算能力与英伟达的 Blackwell 大致相同。然而，AMD 还将提供高达 288GB 的 HBM3E 内存，这比目前 Blackwell 的内存多出 50%。Blackwell 和 MI355X 的每块 GPU 都将具有 8 TB/s 的带宽。

AMD Instinct MI350 系列加速器有望在 2025 年下半年上市。

「毫无疑问，AMD 凭借 EPYC 拉大了与英特尔之间的差距。目前，它在高端市场占有 50-60% 的份额，而且我认为这一趋势不会减弱。AMD 面临的最大挑战是获得企业市场份额。AMD 需要在销售和营销方面投入更多资金，以加速其企业增长，」Moor Insights & Strategy 分析师 Patrick Moorhead 表示。「很难评估 AMD 与 NVIDIA 在数据中心 GPU 方面的地位。到处都有数据，两家公司都声称自己更胜一筹。」

Moohead 补充道：「我可以毫不含糊地说，AMD 的新 GPU，尤其是 MI350，与前代产品相比，效率和性能都有所提高，对低比特率模型的支持也更好，这是一个巨大的进步。这是一场激烈的竞逐，英伟达遥遥领先，AMD 正在迅速追赶并取得了有意义的成果。」

AMD 下一代 AI 网络互联技术

AMD Pensando

AMD 正在利用可编程 DPU 为超大规模计算提供动力，为下一代 AI 网络提供支持。

AI 网络分为两部分：前端（向 AI 集群提供数据和信息）和后端（管理加速器和集群之间的数据传输）。

为了有效管理这两个网络并推动整个系统朝着高性能、可扩展和高效率发展，AMD 推出了用于前端的 AMD Pensando Salina DPU 和用于后端的 AMD Pensando Pollara 400。

AMD Pensando Salina DPU 是全球性能最高、可编程性最强的第三代 DPU，与上一代相比，其性能、带宽和规模提高了两倍。AMD Pensando Salina DPU 支持 400G 吞吐量，可实现快速数据传输速率，是 AI 前端网络集群中的关键组件。

AMD Pensando Pollara 400 搭载了 AMD P4 可编程引擎，是业界首款支持 UEC（Ultra Ethernet Consortium）的 AI NIC。它支持下一代 RDMA 软件，并由开放的网络生态系统提供支持。

AMD Pensando Salina DPU 和 AMD Pensando Pollara 400 均于 2024 年第四季度向客户提供样品，并有望于 2025 年上半年上市。

用于生成式 AI 的 AI 软件

AMD 在旧金山举行的「Advancing AI 2024」活动。

AMD 将对软件功能和开放生态系统进行投资，以在 AMD ROCm 开放软件堆栈中提供强大的新特性和功能。

在开放软件社区中，AMD 正在推动 AI 框架、库和模型（包括 PyTorch、Triton、Hugging Face 等）对 AMD 计算引擎的支持。这项工作使得 AMD Instinct 加速器在流行的生成式 AI 模型（如 Stable Diffusion 3、Meta Llama 3、3.1 和 3.2）以及 Hugging Face 上的一百多万个模型上提供开箱即用的性能和支持。

除了社区之外，AMD 还继续推进 ROCm 开放软件堆栈，为用户带来最新功能以支持生成式 AI 工作负载的领先训练和推理。

现在，ROCm 6.2 支持很多 AI 应用，例如 FP8 数据类型、Flash Attention 3、Kernel Fusion 等。与 ROCm 6.0 相比，ROCm 6.2 在推理方面提供了 2.4 倍的性能改进，在各种 LLM 的训练方面提供了 1.8 倍的性能改进。

第五代 AMD Epyc CPU

在服务器端，Zen 架构已经让 AMD 的市场份额从 2017 年的零上升到 2024 年第二季度的 34%。

AMD 揭开了其全新 Zen 5 架构服务器 CPU 系列的详细细节。第五代 EPYC「Turin」处理器 CPU 适用于企业、AI 和云服务用例。

AMD 已将其具有全功能 Zen 5 内核的标准扩展优化模型和具有密集 Zen 5c 内核的扩展优化模型统一为一个堆栈，该堆栈以 EPYC 9005 Turin 为名，与英特尔的竞争对手 Xeon 处理器相比，性能表现令人印象深刻。

AMD 声称，其旗舰产品 192 核 EPYC 9965 比英特尔竞争对手的旗舰产品 Platinum 8952+ 快 2.7 倍，速度提升显著。在具体应用方向上，还包括视频转码速度提高 4 倍、HPC 应用程序性能提高 3.9 倍、虚拟化环境中每核性能提高 1.6 倍。AMD 还宣布推出其新的高频 5GHz EPYC 9575F，据称在用于加速 AI GPU 工作负载时，它比 Zen 4 EPYC 型号要快 28%。

值得注意的是，AMD 并未在本代推出带有堆叠 L3 缓存的 X 系列型号，而是暂时依赖其 Milan-X 系列。AMD 表示，其 X 系列可能会隔代进行升级。

AMD 的新系列最高端是一款 14813 美元的 192 核 / 384 线程 EPYC 9965，这是一款 500W 功率的庞然大物，利用台积电的 3nm 节点通过密集的 Zen 5c 内核实现极致的计算密度。还有另外五款 Zen 5c 驱动的型号，包括 96、128、144 和 160 核心的型号，适用于高密度应用。

标准型号的 Zen 5 内核在 4nm 节点上制造，最高可达 128 个内核和 256 个线程 —— 售价 12984 美元的 EPYC 9755。该堆栈共有 22 种型号，从仅仅 8 个内核开始，这是 AMD 为响应客户需求而创建的全新小内核级别。AMD 在其产品堆栈中还散布了四个单插槽「P」系列型号。

AMD 的标准 Zen 5 系列现在包括新的高频 SKU，最高可达 5.0 GHz，这是 AMD 数据中心 CPU 系列的新高水准，可最大限度地提高 GPU 编排工作负载的性能。AMD 共有五种 F 系列型号，适用于不同级别的性能和内核数。

标准 Zen 5 型号采用多达 16 个 4nm CCD（核心计算芯片，又称小芯片）。它们与大型中央 I/O 芯片配对，每个 CCD 提供多达 8 个 CPU 核心，TDP 范围从 155W 到 500W。Zen 5c 型号采用多达 12 个 3nm CCD，每个小芯片有 16 个 Zen 5c 核心，与相同的 I/O 芯片配对。

AMD 声称，基于全新 Zen 5 架构的 RPYC 9005 系列的 IPC 增加了 17%。Zen 5 还显著增加了对 AVX-512 的完整 512b 数据路径支持，不过用户也可以选择在「双泵」AVX-512 模式下运行芯片，将 512b 指令作为两组 256b 发出，从而降低功率要求并提高某些工作负载的效率。

除了旗舰 192 核型号外，所有 Turin 处理器都可以放入现有的服务器平台采用 SP5 插槽。192 核型号也适用于 SP5 插槽，但需要特殊的电源配置，因此该高端型号需要较新的主板。

Turin 系列仅提供 12 个 DDR5 内存支持通道，每台服务器的内存容量高达 12TB（每插槽 6TB）。AMD 最初将 Turin 的规格定为 DDR5-6000，但现在已将其提高到合格平台的 DDR5-6400。AMD 的平台仅支持每通道 1 个 DIMM（DPC）。

对于 AMD 来说，目前面临的环境即是机遇也是挑战，如何能将架构、制程上的优势转化为胜势？从今天凌晨的发布会上，我们或许已经看到端倪。

参考内容：

https://www.youtube.com/watch?v=vJ8aEO6ggOs

https://www.tomshardware.com/tech-industry/artificial-intelligence/amd-reveals-core-specs-for-instinct-mi355x-cdna4-ai-accelerator-slated-for-shipping-in-the-second-half-of-2025

https://www.tomshardware.com/pc-components/cpus/amd-unveils-ryzen-ai-pro-300-cpus-zen-5-and-copilot-pcs-for-businesses-and-enterprise

https://venturebeat.com/ai/amd-unveils-ai-infused-chips-across-ryzen-instinct-and-epyc-brands/

....

#多模态大模型评测集最全综述

本综述对200个多模态大模型评测集进行了全面的回顾和总结，涵盖了MLLM评估的五个关键领域：(1) 感知和理解，(2) 认知和推理，(3) 特定领域，(4) 关键能力，以及 (5) 其他模态，共包括20-30个详细类别。

arxiv论文：https://arxiv.org/pdf/2408.08632

主页：https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey

多模态大语言模型因其在视觉感知和问答、理解和推理等各种应用中的卓越表现，正在学术界和工业界获得越来越多的关注。在过去的几年中，大量的研究人员从各种维度和粒度对MLLM (Multimodal Large Language Model)进行了深入研究。本综述对200个多模态大模型评测集进行了全面的回顾和总结，涵盖了MLLM评估的五个关键领域：(1) 感知和理解，(2) 认知和推理，(3) 特定领域，(4) 关键能力，以及 (5) 其他模态，共包括20-30个详细类别。

此外，作者还展示了与MLLM评估相关的论文的随时间的增长趋势，表明该研究领域在近两年的飞速发展。此外，作者还提供了自2024年以来在83个基准测试中表现最好的MLLM的统计数据。相比之下，OpenAI的GPT-4和Google的Gemini表现十分优异。

Preliminary：多模态大模型的架构和训练

多模态大模型的架构通常可以分为三个主要模块：多模态编码器（如视觉、音频等）、多模态投影器（用于不同模态的对齐和融合）、以及大语言模型。训练过程中涉及的核心方法主要包括预训练和指令微调。

多模态编码器多模态编码器的任务是将输入的图像或其他模态的数据进行编码，提取出对应的多模态特征。这些特征随后会被传递给多模态投影器进行进一步的处理。典型的视觉编码器包括 CLIP、SigLIP 和 DINO 等模型，它们通过对原始视觉输入进行特征提取，生成用于跨模态分析的高维特征向量。

多模态投影器多模态投影器负责将多模态特征嵌入映射到文本特征空间。这个过程使多模态信号能够与文本信息进行对齐，并与语言模型的输入结合起来。为了提高处理效率，一些工作（如 BLIP-2 中的 Qformer）设计了新的投影器，通过减少多模态标记的数量，提升模型的性能。

大型语言模型大型语言模型是 MLLM 的核心，它使模型具备了零样本推理、指令执行和上下文学习等能力。模型接收包含多模态信号的输入序列，输出相应的文本序列。通常，语言模型会通过文本分词器将文本输入映射为文本标记，随后将文本和视觉标记连接在一起作为模型的输入，最终通过自回归的方式生成输出。典型的大型语言模型包括 LLaMA 系列、Phi、Gemma 和 Qwen，Intern 等，它们的参数规模从数十亿到上百亿不等。

预训练预训练阶段的主要目标是对齐不同模态的嵌入空间，使得语言模型能够接收来自多模态的输入。该阶段通常依赖于大规模的文本配对数据，如图像-文本对。通过这样的数据格式，模型能够学习多模态信息之间的关联，并采用“下一个词预测”的训练范式，最大化模型对图像描述的预测概率。在这一过程中，模型会使用标准的交叉熵损失函数进行优化，确保其在多模态输入下生成准确的描述。

指令微调指令微调阶段则着眼于通过特定任务的指令来进一步微调模型。该过程通常在监督微调范式下进行，指令微调的数据集通常会以单轮或多轮对话的结构呈现，模型通过这些指令学习如何应对特定任务。常见的策略是保持多模态编码器的权重固定，更新投影器和大型语言模型的预训练权重，从而提升模型在多模态任务中的执行能力。

多模态大模型评测集分类

1. 感知与理解：奠定多模态模型的基础

MLLMs的感知与理解能力是其多模态任务处理的核心。作者从综合评估、细粒度感知和图像理解三个角度对该领域的评估进行了总结。

1）综合评估: MLLMs依赖于强大的语言模型来执行多模态任务，研究人员提出了大量的综合评估基准，以全面测试MLLMs在感知与理解方面的表现。这些基准有效地评估了模型在对象识别、场景上下文理解以及响应视觉内容问题等任务中的准确性。

2）细粒度感知: 细粒度感知是MLLMs的重要组成部分，评估模型在检测和识别场景中可见物体的能力，尤其关注局部区域的细节处理能力和多模态信号与文本信息对齐的精度。细粒度感知对于多模态理解十分重要，能够有效提高模型在复杂场景中的表现。

3）图像理解: 图像理解任务测试MLLMs从视觉内容中提取有意义信息的能力。这类评估旨在衡量模型是否能够掌握场景的上下文，将视觉细节与文本信息有效结合，并生成连贯的描述和洞察。

2. 认知与推理：实现复杂任务的高级能力

在认知与推理方面，MLLMs展现了超越基础感知能力的复杂信息处理与逻辑推理能力。作者从通讯推理、基于知识的推理、智能与认知三个角度对该领域的评估进行了总结：

1）通用推理： MLLMs需要从多模态信号和文本输入中提取相关信息，从而推导出逻辑结论。评估模型的通用推理能力，主要集中在视觉关系推理、上下文推理及思维链推理等。模型需要展现其对多模态信号和文本信息之间复杂关系的理解与处理能力。

2）基于知识的推理： MLLMs在处理复杂任务时，基于知识的推理能力十分重要。评估模型是否能够利用外部知识库或常识性知识来回答问题，测试其在知识更新和维护中的准确性和一致性也是评估的一个重要方面。

3）智能与认知：借鉴人类认知发展理，一些评估基准测试MLLMs在抽象信息推理和多学科问题中的表现。通过解决复杂的数学问题或多学科问题，评估模型是否能够在多个知识领域中整合和应用信息。

3. 特定领域应用：从理论到实践的延伸

MLLMs的特定领域应用能力近年来同样获得了越来越多的关注，尤其是在处理复杂专业任务和特定场景中的表现。作者从富文本视觉问答、决策代理、多文化和多语言、其他应用四个角度对该领域的评估进行了总结：

1）富文本视觉问答: 评估MLLMs在文本与图像信息集成分析中的表现，特别是文本识别、上下文理解和多模态文档处理能力。通过这种评估，可以深入了解模型在实际应用中的适应性，尤其是在处理含有复杂文本和图像组合的场景中。

2）决策代理: MLLMs在动态环境中执行基于代理的决策任务的能力是其智能化的重要体现。相关评估测试了模型在复杂场景中的规划与调度能力，这种能力对于解决如xx智能、自动驾驶等现实世界中的问题至关重要。

3）多样化文化与语言: 目前大多数基准测试主要集中在英语文本的语境下，而忽视了其他语言和文化背景的需求。为此，一些用于评估MLLMs在多语言和多文化场景中表现的基准被提出，以评估模型是否具备更广泛的适应性和应用能力。

4）其他应用: 此外，部分评估基准侧重于测试MLLMs在医学、工业设计等高度专业化领域中的表现。这些评估用于测试模型在处理特定领域数据时的适应性，从而展现MLLMs应对复杂的专业任务和现实应用场景的能力。

4. 关键能力：提升用户体验的核心

MLLMs的关键能力不仅影响其性能表现，还直接关系到用户的实际体验。作者从对话能力、幻觉及可信度三个角度对该领域的评估进行了总结：

1）对话能力: 部分评估基准测试了MLLMs在处理复杂对话场景中的表现，特别是在长上下文理解和复杂指令执行方面的能力。确保模型能够在多样化对话中进行有效的互动，并准确执行用户的复杂指令。

2）幻觉: 幻觉问题是MLLMs面临的主要挑战之一，幻觉指的是模型生成的内容与实际的多模态信号输入不符。相关评估测试了MLLMs在幻觉上的表现，并探索了如何通过更有效和更高效的方式来自动化地检测和评估幻觉问题。

3）可信度: MLLMs的可信度评估涉及多个方面，包括准确性、一致性以及在处理敏感内容时的安全性。稳健性评估测试了模型在面对不同或意外输入时的表现，确保其在各种条件下输出的可靠性。同时，安全性评估则关注模型是否能够避免生成有害或不当内容，从而保护用户免受潜在风险。

5. 其他模态：扩展多模态模型的潜力

除了图像模态外，视频、音频和三维场景等其他模态也提供了丰富的现实世界信息。这些模态不仅增强了模型理解复杂场景的能力，还为评估多模态大模型在真实任务中的表现提供了重要依据。作者从视频、音频、三维场景及全模态四个角度对该领域的评估进行了总结：

1）视频：视频信号不仅包含图像信息，还涉及时序信息和视频上下文信息。评估模型在视频任务中的表现，尤其是在时间感知、动作理解和事件推理方面，是多模态大模型在视频理解中的关键任务。模型是否能够充分理解时序信息以及分析长视频的能力也构成了视频模态评估的重要维度。

2）音频：音频模态通过语音、环境声和音乐等多种形式，为评估模型提供了额外的维度。评估音频模态的关键在于模型如何处理和理解音频信号，特别是在跨模态任务中的表现，例如处理语音指令、理解环境音和音乐。在多模态交互中，模型不仅需要准确理解语音内容，还要能够综合分析音频与其他模态的关联性。

3）三维场景：三维场景相比二维图像，提供了更为精确的空间关系、深度和遮挡信息，这对于解释复杂环境至关重要。评估模型在三维场景中的表现，尤其是在物体检测、场景理解和空间推理等任务中的能力，是确保模型能够有效处理三维信息的关键。

4）全模态：现实世界中的多模态信息通常同时涉及音频、图像、视频和文本等多种模态。评估模型在处理多个模态同时出现的任务中的表现，能够更全面地评估其适应现实场景的能力。全模态评估不仅能够考察模型的多模态交互能力，还能揭示其在多任务环境中的潜在优势与不足。

总结:

这篇关于多模态大模型评测基准的综述，在当前AGI模型发展的背景下具有重要的指导意义。作者从五大核心领域进行了全面的分析与总结，评测不仅确保了多模态大模型能够有效处理多模态信号，还检验了它们在准确性、稳健性和公平性等方面的表现是否达到预期标准。这些分类不仅加深了我们对MLLM现状的理解，还明确了其在不同应用场景中的潜力与局限，为未来MLLM的发展提供了有价值的洞见。通过严谨的评估流程，能够清晰地识别出各模型的优势与不足，为进一步优化模型提供了明确方向，也为AI系统在实际应用中的部署奠定了技术基础。

....

#什么是 AGI？

深度｜李飞飞：我不知道什么是AGI

你对人工通用智能（AGI）感到困惑吗？这就是 OpenAI 执着于最终以“造福全人类”的方式创造的东西。你可能想认真对待他们，因为他们刚筹集了 66 亿美元以更接近这个目标。

但如果你仍然在想究竟什么是 AGI，你并不孤单。

在周四的 Credo AI 负责任的人工智能领导峰会上，世界著名研究员常被称为“人工智能教母”的李飞飞表示，她也不知道什么是 AGI。在其他时刻，李飞飞讨论了她在现代人工智能诞生中的角色，社会应该如何保护自己免受先进人工智能模型的影响，以及她为什么认为她的新独角兽初创公司 World Labs将改变一切。

但当被问及她对“人工智能奇点”的看法时，李和我们其他人一样感到困惑。

“我来自人工智能学术界，接受过更严格和基于证据的方法的教育，所以我并不太清楚这些词的意思，”李在旧金山一个挤满人的房间里说，旁边是一扇俯瞰金门大桥的大窗户。“坦率地说，我甚至不知道 AGI 是什么意思。人们说你见到它就知道，我想我还没有见过。事实上，我并不花太多时间思考这些词，因为我认为还有很多更重要的事情要做……”

如果有人知道什么是 AGI，那可能是李飞飞。2006 年，她创建了 ImageNet，这是世界上第一个大型 AI 训练和基准数据集，对催化我们当前的 AI 热潮至关重要。从 2017 年到 2018 年，她担任谷歌云的 AI/ML 首席科学家。今天，李飞飞领导斯坦福人本中心 AI 研究所（HAI），她的初创公司 World Labs 正在构建“大型世界模型”。（如果你问我，这个术语几乎和 AGI 一样令人困惑。）

OpenAI 首席执行官奥特曼在去年的 The New Yorker 采访中尝试定义 AGI。奥特曼将 AGI 描述为“你可以雇佣的同事的中等人类的等价物。”（equivalent of a median human that you could hire as a coworker.）

与此同时，OpenAI 的章程将 AGI 定义为“在大多数经济价值工作中超越人类的高度自主系统。”（ “highly autonomous systems that outperform humans at most economically valuable work.”）

显然，这些定义对于一家价值 1570 亿美元的公司来说并不够好。因此，OpenAI 创建了五个级别，用于内部评估其向 AGI 的进展。第一个级别是聊天机器人（如 ChatGPT），然后是推理者（显然，OpenAI o1 是这个级别），代理（这 supposedly 是下一个），创新者（可以帮助发明事物的 AI），最后一个级别是组织级（可以完成整个组织工作的 AI）。

仍然感到困惑吗？我也是，李也是。此外，这听起来远远超过一个普通人类同事能做到的。

李在谈话早些时候提到，自小她就对智能的概念充满了好奇。这使她在人工智能尚未盈利之前就开始研究这一领域。在 2000 年代初，李表示她和其他几个人正在悄悄为这个领域奠定基础。

“在 2012 年，我的 ImageNet 与 AlexNet 和 GPU 结合——许多人称之为现代人工智能的诞生。它是由三个关键因素驱动的：大数据、神经网络和现代 GPU 计算。一旦那个时刻到来，我认为整个人工智能领域以及我们的世界都再也不同了。”

当被问及加利福尼亚州有争议的人工智能法案 SB 1047 时，李谨慎地发言，以避免重提州长纽森刚刚通过上周否决该法案而平息的争议。（我们最近与 SB 1047 的作者进行了交谈，他更愿意重新与李展开辩论。）

“你们中的一些人可能知道我对这项被否决的法案 [SB 1047] 表达过我的担忧，但现在我正在深思熟虑，并充满期待地展望未来，”李说。“我感到非常受宠若惊，或者说很荣幸，纽森州长邀请我参与后 SB 1047 的下一步。”

加利福尼亚州的州长最近邀请李以及其他人工智能专家组成一个工作组，帮助该州制定人工智能部署的保护措施。李表示，她将在这个角色中采用基于证据的方法，并将尽力倡导学术研究和资金支持。然而，她也希望确保加利福尼亚州不会惩罚技术人员。

“我们需要真正关注对人类和我们社区的潜在影响，而不是将责任归咎于技术本身……如果一辆车被故意或无意地滥用并伤害了一个人，我们惩罚汽车工程师——比如福特或通用汽车——是没有意义的。仅仅惩罚汽车工程师并不会让汽车更安全。我们需要做的是继续创新以实现更安全的措施，同时改善监管框架——无论是安全带还是限速——人工智能也是如此。”

这是我听过的针对 SB 1047 的更好论点之一，该法案将惩罚因危险 AI 模型而受到影响的科技公司。

尽管李正在为加利福尼亚州提供人工智能监管建议，但她也在旧金山经营她的初创公司 World Labs。这是李第一次创办初创公司，她是少数几位领导前沿人工智能实验室的女性之一。

“我们离一个非常多样化的人工智能生态系统还很远，”李说。“我确实相信，多样化的人类智能将导致多样化的人工智能，并将为我们带来更好的技术。”

在接下来的几年里，她很高兴能将“空间智能”更接近现实。李说，人类语言是今天大型语言模型的基础，可能花费了百万年的时间来发展，而视觉和感知则可能花费了 5.4 亿年的时间。这意味着创建大型世界模型是一项更复杂的任务。

“这不仅仅是让计算机看见，而是真正让计算机理解整个三维世界，我称之为空间智能，”李说。“我们不仅仅是为了命名事物而看……我们真正是为了做事、导航世界、相互互动而看，缩小看与做之间的差距需要空间知识。作为一名技术专家，我对此感到非常兴奋。”

本文翻译自：TechCrunch，https://techcrunch.com/2024/10/03/even-the-godmother-of-ai-has-no-idea-what-agi-is/

#大模型代肝

自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

大模型的执行力从哪里来？

上个月，Anthropic 推出了升级版的 Claude 3.5 Sonnet。最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息，模仿人类与计算机的交互方式。

简单来说，Claude 3.5 Sonnet 能像人一样使用计算机了！

被 Computer Use 功能点化过的 Claude 3.5 Sonnet，是首个以图形用户界面（GUI）agent 形式，可以在公开测试中控制电脑的 AI 模型。

作为早期测试版，Anthropic 在发布时表示其在现实复杂环境中的能力仍然未知。

最近，来自新加坡国立大学（NUS）Show Lab 的研究团队策划和组织了一系列精心设计的任务，来测试 Computer Use 功能这里面的门道究竟有多深。

不测不知道，除了发布 demo 中秀出的「成熟的 AI 已经学会自己打工了」。

xxx

，赞153

成熟的 AI 也学会自己打游戏了！不信，请看 Claude 代打《崩坏：星穹铁道》的 VCR：

平时需要我们动手操作的找到副本、点击传送，现在 Claude 可以用「无形的手」代劳了。

它不仅知道什么时候该行动，还知道来都来了，多刷几次吧。

能看到电脑自己开始玩自己，这意味着，Claude 不仅能识别画面上的按钮，还能理解每个按钮的含义和功能，比如哪里是开启副本、哪里是开始战斗，再判断何时应该按下对应的按钮，执行相应的操作。

就是 Claude 还没学会换阵容，这个配队有点稀碎。

看来以后养号不必找代练了，学会进阶的提示词技巧，让 Claude 试试也行。它不会悄悄花掉星轨通票，更不会手抖把保底都抽没了。

除了刷副本之外，这个团队还实现了自动清《星铁》的每日任务。

Claude 自动刷每日任务 + 材料副本约等于【精品托管】，找真人代肝市场价 60 元。

不得不感叹，以后的人机交互方式真要变天了。

该团队还用填表格、下载音乐等 20 项任务对 Claude 3.5 Computer Use 进行了测试，这些案例表明，其在端到端语言到桌面操作方面具有前所未有的能力。

论文链接：https://arxiv.org/pdf/2411.10323
项目链接：https://github.com/showlab/computer_use_ootb

他们还提供了 Claude Computer Use 的系统提示。对于其实现原理，他们提供了一种解释，Computer Use 基于 ReAct 框架。

但与传统 ReAct 框架中每次操作都需截取一次屏幕的方式不同，Computer Use 引入了「择优观察」策略 —— 仅在必要时才截图观察环境，大幅提高了效率和灵活性。

此外，该研究还提供了一个开箱即用的智能体框架 Computer Use Out-of-the-Box（Computer Use OOTB），用于部署基于 API 的 GUI 自动化模型，Computer Use 的功能实现起来更容易了。

Computer Use Out-of-the-Box 打开谷歌表格，在其中的一栏自动填上「Hail Computer Use OOTB」。

关于 GUI 自动化智能体的研究，主要聚焦于如何利用通用大语言模型理解 GUI 状态并生成操作，从而实现与图形用户界面（GUI）的智能交互。

Anthropic 发布的 Computer Use 功能标志着 GUI 自动化智能体的重大进步。与以往的模型不同，Computer Use 功能通过 API 调用提供了端到端的解决方案，智能体不再需要进一步的先验知识，只观察纯视觉的 GUI 状态，就能完成用户要求的任务。

深入解析 Claude 的「Computer Use」

模型设计

简要概括 Claude Computer Use 的原理：

用户给出一条自然语言指令 X_instr 时，智能体就像用户的「替身使者」一样，根据指令在电脑上完成一系列任务。

从开始到结束，这个「替身使者」和环境的是这么互动的：在每个时间步 t，先观察当前的 GUI 状态 I_t，然后从自己的「动作库」中挑选下一步动作，熟练地调用相应工具执行操作，让任务更进一步。

系统提示

系统提示是智能体的「规则手册」，以下是 Claude Computer Use 的系统提示：

System Overview
* You have access to a set of functions that allow you to interact with a sandboxed computing environment.
* You do NOT have access to external resources, except through the functions provided below.
* You can invoke one or more functions by writing a <antml:function_calls> block like this:
plaintext
<antml:function_calls>
  <antml:invoke name="$FUNCTION_NAME">
    <antml:parameter name="$PARAMETER_NAME">$PARAMETER_VALUE</antml:parameter>
    ...
  </antml:invoke>
  <antml:invoke name="$FUNCTION_NAME2">
    ...
  </antml:invoke>
</antml:function_calls>
* String and scalar parameters should be passed as is. Lists and objects should be passed in JSON format.
* The output or any errors will appear in a subsequent <function_results> block. If a <function_results> block does NOT appear, your function call was likely malformatted.
Available Functions
1. Computer Interaction (GUI):
    * Description: Use a mouse and keyboard to interact with the computer and take screenshots.
        You can only interact with the desktop GUI (no terminal or application menu access).
    * Actions include:
        * key: Press a key or key-combination.
        * type: Type a string of text.
        * mouse_move: Move the cursor to specified coordinates.
        * left_click, right_click, middle_click, double_click: Perform mouse clicks.
        * left_click_drag: Click and drag the cursor.
        * screenshot: Take a screenshot of the screen.
    * Important Notes:
        * The screen resolution is [SCREEN_RESOLUTION, e.g., 1024x768].
        * Always check the coordinates of elements via screenshots before moving the cursor.
        * If a click fails, adjust your cursor position and retry.
    * Parameters:
        * action (required): The action to perform, such as key, type, etc.
        * coordinate: The (x, y) coordinates for mouse-related actions.
        * text: The text to type or key to press for type and key actions.
Bash Shell Commands:
    * Description: Run commands in a bash shell.
    * Parameters:
        * command (required): The bash command to run.
        * restart: If true, restarts the tool.
File Editing Tool:
    * Description: View, create, and edit files.
        * view: Displays a file or lists directory contents.
        * create: Creates a new file (fails if the file already exists).
        * str_replace: Replaces a specific string in a file.
        * insert: Inserts a string after a specified line.
    * Parameters:
        * path (required): The absolute path to the file or directory.
        * write_text: The content for creating a file.
        * str: Strings for replacing or inserting content.
        * line: Line number for inserting content.
        * view_range: Specify range of lines to view.
System Capabilities
* You are using an Ubuntu virtual machine with aarch64 architecture.
* You can install applications using apt or pip.
* Firefox is installed (use the firefox-esr version).
* GUI applications can be started from the Bash shell using DISPLAY=:1.
* The current date is [DATETIME, e.g., Wednesday, October 23, 2024].
Important Notes
* If the startup wizard for Firefox appears, ignore it. Do not click "skip this step." Instead, click on the address bar and enter the appropriate URL or search there.
* For handling PDFs, it may be better to download using a URL and convert it to text using pdftotext for easier reading.
Summary of How to Use the Tools
* Function Invocation: To interact with the environment, use the <antml:function_calls> block.
* Error Handling: If no <function_results> appear, check for malformatted calls.
* Multiple Calls: Where possible, chain multiple function calls to optimize workflow.

状态观察

Claude Computer Use 通过实时截图来观察环境，完全不依赖元数据或 HTML。

这种「纯视觉」的方式让它无需借助应用的 API，就能适应动态的 GUI 环境。因此，在闭源软件中也能表现出色。

推理范式

Claude Computer Use 采用类似 ReAct 的框架进行推理，但和传统的 ReAct 会在每一步操作中都反复观察环境，比如每点击一次按钮都重新检查屏幕状态不同，Claude Computer Use 采用了「择优观察」策略 ———— 只有在需要的时候才观察环境。就像我们在操作电脑时，如果知道接下来的操作无需确认界面状态，就直接继续下一步，而不是每做一步都重新检查界面。

智能体的工具

想让成熟的 AI 学会自己打工，它需要像「哆啦 A 梦」一样，为各种任务在口袋里准备好了工具。

Claude Computer Use 的「口袋」里装的是由 Anthropic 定义的三种工具：计算机工具、文本编辑工具和 Bash 工具。

（1）计算机工具

计算机工具帮助 Claude Computer Use 使用鼠标和键盘，并截图来观察实时环境。

计算机工具说明：

具体如何调用：

{
  "properties": {
    "action": {
      "description": """The action to perform. The available actions are:
        * key: Press a key or key-combination on the keyboard.
        * This supports xdotool's key syntax.
        * Examples: "a", "Return", "alt+Tab", "ctrl+s", "Up", "KP_0" (for the numpad 0 key).
        * type: Type a string of text on the keyboard.
        * cursor_position: Get the current (x, y) pixel coordinate of the cursor on the screen.
        * mouse_move: Move the cursor to a specified (x, y) pixel coordinate on the screen.
        * left_click: Click the left mouse button.
        * left_click_drag: Click and drag the cursor to a specified (x, y) pixel coordinate on the screen.
        * right_click: Click the right mouse button.
        * middle_click: Click the middle mouse button.
        * double_click: Double-click the left mouse button.
        * screenshot: Take a screenshot of the screen.
      """,
      "enum": [
        "key",
        "type",
        "mouse_move",
        "left_click",
        "left_click_drag",
        "right_click",
        "middle_click",
        "double_click",
        "screenshot",
        "cursor_position"
      ],
      "type": "string"
    },
    "coordinate": {
      "description": "(x, y): The x (pixels from the left edge) and y (pixels from the top edge) coordinates to move the mouse to. Required only by actinotallow=mouse_move and actinotallow=left_click_drag.",
      "type": "array"
    },
    "text": {
      "description": "Required only by actinotallow=type and actinotallow=key.",
      "type": "string"
    }
  },
  "required": ["action"],
  "type": "object"
}

（2）文本编辑工具

文本编辑工具帮助 Claude Computer Use 使用自定义工具来查看、创建和编辑文件。

文本编辑工具说明：

具体如何调用：

{
  "properties": {
    "command": {
      "description": "The commands to run. Allowed options are:`view`,`create`,`str_replace`,`insert`,`undo_edit`.",
      "enum": ["view", "create", "str_replace", "insert", "undo_edit"],
      "type": "string"
    },
    "file_text": {
      "description": "Required parameter of`create`command, with the content of the file to be created.",
      "type": "string"
    },
    "insert_line": {
      "description": "Required parameter of`insert`command. The`new_str`will be inserted AFTER the line`insert_line`of`path`.",
      "type": "integer"
    },
    "new_str": {
      "description": "Optional parameter of`str_replace`command containing the new string (if not given, no string will be added). Required parameter of`insert`command containing the string to insert.",
      "type": "string"
    },
    "old_str": {
      "description": "Required parameter of`str_replace`command containing the string in`path`to replace.",
      "type": "string"
    },
    "path": {
      "description": "Absolute path to file or directory, e.g.,`/repo/file.py`or`/repo/`.",
      "type": "string"
    },
    "view_range": {
      "description": "Optional parameter of`view`command when`path`points to a file. If none is given, the full file is shown. If provided, the file will be shown in the indicated line number range, e.g., [11, 12] will show lines 11 and 12. Indexing starts at 1. Setting`[start_line, -1]`shows all lines from`start_line`to the end of the file.",
      "items": { "type": "integer" },
      "type": "array"
    }
  },
  "required": ["command", "path"],
  "type": "object"
}

（3）Bash 工具

Bash 工具帮助 Claude Computer Use 在 Bash Shell 中运行命令。

Bash 工具说明：

具体如何调用：

{
  "properties": {
    "command": {
      "description": "The bash command to run. Required unless the tool is being restarted.",
      "type": "string"
    },
    "restart": {
      "description": "Specifying true will restart this tool. Otherwise, leave this unspecified.",
      "type": "boolean"
    }
  }
}

动作空间

Claude Computer Use 的 GUI 动作空间涵盖了所有常见的鼠标和键盘操作，包括鼠标移动、左键单击、右键单击、中键单击、双击、拖拽操作，以及文本输入、按键触发和快捷键组合等。

此外，与坐标相关的操作还精确到目标位置在截图像素空间中的具体坐标。

智能体的记忆

Claude Computer Use 会保存一组完整的历史截图，这些截图会随着任务进行不断累积。具体来说，在每个时间步 t，保留的历史截图用于辅助生成当前的动作，其过程如下：

其中

表示当前时间步 t 要采取的动作，

表示保留的历史截图，

代表 Claude 3.5 Sonnet。

开箱即用的智能体框架

为了让 GUI 智能体更实用，该团队开发了一款跨平台框架 Computer Use Out-of-the-Box，它可以在 Windows 和 macOS 上运行，无需依赖 Docker 或特定的 Linux 环境。

通过使用 PyAutoGUI，这个框架能让模型通过简单的动作指令远程控制软件，实现跨系统的兼容操作。

Computer Use能力评估

除了上文展示的视频游戏任务，该研究对 Claude 计算机使用能力的评估还涵盖了网页搜索、工作流、办公软件几个领域，总体评估情况如下表 1 所示：

该团队选择了以下三个维度严格评估基于 API 的 GUI 自动化模型的性能：

规划：评估模型根据用户的输入生成可执行计划的能力。这个计划应该是能让软件整体成功运行，每个步骤都清晰且可执行的正确流程。
行动：评估模型是否能够准确识别并操作可交互的 GUI 元素，同时按照派生计划逐步执行具体操作。
反思：衡量模型对动态环境的感知能力，包括其根据操作结果进行调整的能力，例如在任务失败时尝试重试，或在任务完成后及时终止操作。

网页搜索

由于互联网网页具有动态特性、互连结构等特点，模型需要根据每个规划步骤的执行状态来决定何时向前或向后导航历史记录。因此，模型必须具备相应地批评和调整其规划的能力。

该研究评估了模型在反映现实场景的复杂网络搜索任务上的性能，旨在评估其在处理动态内容、执行多步骤规划以及调整策略以响应意外界面行为方面的熟练程度。

例如，在 Amazon 商城上查找价格低于 100 美元的 ANC 耳机：

浏览 Apple 官方网站：

然而，也有失败的情况，例如执行 Fox 体育订阅任务失败：

工作流

工作流任务涉及多应用程序交互或多目标用户查询，需要模型跨不同软件平台无缝导航和管理数据。在现实场景中，用户通常需要协调 Web 浏览器、生产力工具和专用应用程序之间的操作以完成复杂的目标。这些任务测试模型在不同环境中维护上下文、准确处理数据传输以及执行多步骤流程而不会在中间状态中丢失跟踪的能力。

例如，查找最新和本地流行音乐并添加到播放列表：

办公软件

办公软件是现代工作场所和教育环境中最受欢迎且使用最广泛的组成部分。这些应用程序是各种任务的核心，从起草文档和分析数据到创建有影响力的演示文稿。这些应用程序中的自动化任务可以显著提高效率、减少重复性工作量并最大限度地减少人为错误，因此其也是 GUI 自动化模型需要解决的关键领域。

然而，与通常提供 API 或结构化 HTML 来实现自动化的 Web 环境不同，Office 应用程序通常缺乏此类用于文件操作的编程接口。因此，GUI 自动化模型必须像人类用户一样直接与应用程序的可视界面交互。这涉及将操作植根于视觉元素，例如菜单、按钮、文本字段和表格单元格。模型必须准确地感知和解释这些界面组件，以浏览复杂的菜单、执行命令以及操作文档或电子表格中的内容。

该研究检查了模型在 Office 软件中自动执行任务的性能，重点关注其有效规划、执行和调整操作的能力，旨在模拟用户遇到的常见现实场景，从而深入了解模型在文字处理、电子表格和演示应用程序中提高生产力的潜力。

例如，转发特定电子邮件并抄送给另一个收件人：