我自己的原文哦~                                 https://blog.51cto.com/whaosoft/14080804

#Discrete Tokenization

多模态大模型的关键基石,首个系统化综述发布

近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展至非文本模态,例如图像、音频、视频、图结构、推荐系统等。这为多模态统一建模带来了机遇,也提出了一个核心挑战:如何将各种模态信号转化为 LLM 可处理的离散表示。

在这一背景下,Discrete Tokenization(离散化)逐渐成为关键方案。通过向量量化(Vector Quantization, VQ)等技术,高维连续输入可以被压缩为紧凑的离散 token,不仅实现高效存储与计算,还能与 LLM 原生的 token 机制无缝衔接,从而显著提升跨模态理解、推理与生成的能力。

尽管 Discrete Tokenization 在多模态 LLM 中扮演着日益重要的角色,现有研究却缺乏系统化的总结,研究者在方法选择、应用设计与优化方向上缺少统一参考。为此,本文团队发布了首个面向多模态 LLM 的 Discrete Tokenization 系统化综述,系统地梳理技术脉络,总结多模态场景下的实践、挑战与前沿研究方向,为该领域提供全面的技术地图。

图片

论文标题:Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

论文链接:https://arxiv.org/abs/2507.22920 

论文仓库:https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey

发文单位:香港科技大学(广州),吉林大学,香港中文大学,南京大学,加州大学默塞德分校

图片

此综述按照输入数据的模态与模态组合来组织内容:从早期的单模态与多模态 Tokenization 方法,到 LLM 结合下的单模态与多模态应用,逐步构建出清晰的技术全景。这种结构既反映了方法的演进路径,也方便读者快速定位自己关心的模态领域。

方法体系:八大类核心技术全景梳理

此综述首次系统性地整理了八类 Vector Quantization 方法,覆盖从经典方法到最新技术变体,并剖析了它们在码本构建、梯度传播、量化实现上的差异。

八类方法包括:

VQ(Vector Quantization):经典码本设计与更新机制,结构简单、便于实现;

RVQ(Residual Vector Quantization):多阶段残差量化,逐步细化编码精度;

PQ(Product Quantization):乘积量化,子空间划分与独立量化;

AQ(Additive Quantization):加性量化,多码本叠加建模,增强表达能力;

FSQ(Finite Scalar Quantization):有限标量量化,每个维度独立映射到有限标量集合,通过隐式码本组合实现离散化,无需显式存储完整码本,计算高效;

LFQ(Lookup-Free Quantization):去查表量化,每个维度通过符号函数直接离散化,无需显式存储完整码本;

BSQ(Binary Spherical Quantization):球面二值量化,单位球面上进行离散化,无需显式码本;

Graph Anchor-Relation Tokenization:面向图结构的锚点 - 关系离散化,降低存储与计算开销。

不同方法在编码器训练、梯度传递、量化精度等方面各具特点,适用于不同模态与任务场景。

图片

方法挑战:码本坍塌(Codebook Collapse)

在多种 VQ 方法实践中,码本坍塌是影响性能的核心问题之一。它指的是在训练过程中,码本的有效向量逐渐收敛到极少数几个,导致码本利用率下降、表示多样性不足。

常见解决思路包括:

  • 码本重置(Code Reset):对长期未使用的码字进行重新初始化,使其靠近活跃码字,从而提升利用率;
  • 线性再参数化(Linear Reparameterization):通过线性变换优化码字分布,并为未使用码字引入可学习参数,保持其活跃状态;
  • 软量化(Soft Quantization):将输入表示为多个码字的加权组合,平衡不同码字的使用频率,防止过度集中在少数码字;
  • 正则化(Regularization):引入熵正则、先验分布约束或 KL 正则等机制,提高码本利用率并避免表示空间坍缩。

缓解码本坍塌对于提升 Discrete Tokenization 在多模态 LLM 中的稳定性与泛化能力至关重要。

图片

早期 Tokenization

在 LLM 出现之前,Discrete Tokenization 已经在多个深度学习任务中得到广泛应用,涵盖单模态场景与多模态场景。在这一阶段,它的主要作用是实现高效表示、压缩以及不同模态间的对齐。典型应用包括:

  • 早期单模态任务:在图像任务中,Discrete Tokenization 常用于检索与合成,高效保留全局语义与关键细节;在音频任务中,它在编解码中作为稳定中间表示,兼顾压缩比与音质;在视频任务中,它实现帧级高效表示,支持可控生成与长时序建模;在结构化数据任务中,它将节点、边或交互序列映射为紧凑的离散表示,用于图表示学习与推荐系统。
  • 早期多模态任务:在视觉 - 语言任务中,Discrete Tokenization 将视觉特征离散化,与文本 token 共享模型接口,实现描述生成与跨模态检索;在语音 - 文本任务中,它将连续语音离散化,与文本 token 对齐,支持语音识别、合成、翻译等互转;在跨模态生成任务中,它让视觉、音频、文本等模态能够统一输入到生成模型,完成多模态协同输出。

这一阶段的实践奠定了 Discrete Tokenization 在后续 LLM 时代广泛应用的技术基础,并为跨模态对齐和统一处理提供了早期经验。

图片

LLM 驱动的单模态离散建模

LLMs 在生成、理解、泛化等任务中展现了强大的能力,使其成为建模非文本模态的理想骨干。在单模态任务中,Discrete Tokenization 被广泛应用于图像、音频、图、动作以及推荐系统等领域,通过将非文本模态编码为 LLM 可读的 token,Discrete Tokenization 实现了与语言 token 在同一空间下的融合。这些离散 token 作为桥梁,使 LLM 能够完成多类下游任务:

  • 图像任务:通过离散 token 编码局部细节与全局语义,实现图像描述、生成与编辑;
  • 音频任务:利用量化后的语音单元支持语音识别、语音合成等任务;
  • 图结构任务:将节点与边离散化,支持节点分类、链接预测、图分类等结构化任务;
  • 动作序列任务:对动作轨迹与控制信号进行离散化,便于 LLM 处理序列生成与预测;
  • 推荐系统任务:将用户行为、商品属性等多类型非语言特征映射为统一 token,提升推荐与排序性能。

通过 Discrete Tokenization,不同单模态的数据特征得以映射到 LLM 的词表空间中,统一进入模型处理框架,从而充分利用 LLM 强大的序列建模和泛化能力。

图片

LLM 驱动的多模态离散建模

在多模态任务中,Discrete Tokenization 的作用尤为关键,它为不同模态之间建立了统一的语义桥梁,使模型能够在一致的 token 表示下处理复杂的多模态输入。

双模态融合

双模态组合起步于 2023 年,其中 Text + Image 是最活跃的方向,其次是 Text + Audio,随后扩展到 Text + Video、Text + Graph、Text + Motion。在这些任务中,各模态通过各自的 tokenizer 转换为离散 token,并映射到统一空间,从而支持图文描述、跨模态问答、语音合成、视频理解、动作生成等任务。

多模态融合

在三模态及以上的组合中,Discrete Tokenization 帮助更多模态在统一框架中协同工作,例如 Text + Image + Audio、Text + Image + Video、Text + Image + Audio + Action。这些组合在统一 token 空间中实现检索、生成、对话、理解等复杂任务。

统一 token 机制使得模型无需为每个模态单独定制架构,而能够在单一框架内自然扩展到更多模态组合,大幅提升泛化性与扩展性。

图片

图片

挑战与未来方向

尽管已有显著进展,Discrete Tokenization 在多模态 LLM 中仍存在多方面挑战:

  • 码本利用率不足:部分码字长期闲置,降低表示多样性。
  • 信息损失:量化过程中压缩语义细节,影响下游性能。
  • 梯度传播困难:离散化阻碍了梯度流动,影响稳定训练。
  • 粒度与语义对齐:粒度选择不当可能导致细节缺失或计算开销高。
  • 离散与连续统一:缺乏两类表示的有效协同。
  • 模态与任务可迁移性:跨模态与跨任务的泛化能力不足。
  • 可解释性与可控性:token 语义不透明,难以调试与控制。

未来研究方向可以聚焦在:自适应量化、统一框架、生物启发式码本、跨模态泛化、可解释性提升等方面,推动离散化在多模态 LLM 中更高效、更通用地发展。

结语

作为多模态 LLM 的底层桥梁,Discrete Tokenization 的重要性会随着模型能力边界的拓展而不断提升。此综述提供了首个全景化、系统化的离散化参考,不仅梳理了八类核心技术,还围绕输入数据的模态与模态组合构建了完整的应用全景,从单模态到双模态,再到多模态融合,形成了清晰的技术脉络。

这是首个以输入模态为主线构建内容结构的系统化综述,为研究者提供了按模态快速检索方法与应用的技术地图。这种组织方式不仅凸显方法演进的脉络,还为不同研究方向提供了清晰的切入路径,有望在推动理论创新的同时,加速实际落地与跨模态系统的发展。

.....

#Vibe Coding

大模型最难的AI Infra,用Vibe Coding搞定

Andrej Karpathy 大神力荐的 Vibe Coding,正在成为开发者的新宠。这种「只需聊一聊,AI 可以把功能写出来」的体验,极大提升了简单任务的开放效率。

然而,当我们目光转向实际的系统,特别是 AI Infra 这种复杂系统时,Vibe Coding 就会常常会陷入「水土不服」的困境。

总结下来,主要有这三个方面的问题。

首先是上下文丢失问题:对话历史被压缩,关键设计决策在多轮交互中逐渐遗忘,导致后续生成的代码与前期讨论脱节。其次是决策偏离困境:AI 在面对复杂系统时需要做出大量技术决策(如架构选择、接口设计、错误处理策略等),自主决策容易偏离开发者意图,生成的代码难以符合预期。最后是质量不稳定挑战:即使提供了完整的需求描述,生成代码的质量仍然波动很大,同样的需求在不同时间可能得到截然不同的实现方案。

而这些问题背后的根源在于:AI Infra 到底还是个复杂系统,动辄数万行代码、成百上千个相互关联的决策点,而当前的对话式编程缺乏持久化、结构化的决策管理机制。

换句话说,Vibe 本身是模糊且不稳定的,无法支撑严肃复杂的 Infra。

不过 Vibe Coding 的发展不可逆,其广泛应用的潜力不应就此止步。要让 Vibe Coding 真正适用于 AI Infra 开发,我们实践了文本驱动的 Vibe Coding 方法:通过设计文档将所有关键决策体系化、持久化。

将复杂系统的关键决策前置到设计阶段,通过结构化文档让开发变得有章可循,大幅降低复杂度门槛。

程序员只需要专注于高层设计决策,AI 负责代码实现细节,真正实现「几乎不写一行代码,就可以完成复杂功能」。

整个过程通过详细的设计规范和代码逻辑来约束 AI 生成,确保实现复合预期,同时提升系统健壮性。

而要验证这一新范式的有效性,我们需要一个兼具高复杂度、强工程约束和真实业务价值的典型场景。

AI Infra 中的资源调度系统,尤其是面向 Agentic RL,正是这样一个理想试验场。该系统是数万行代码的分布式训练系统,面临 GPU 利用率优化的复杂挑战,涉及核心调度逻辑改动。

新开发范式是如何在这一场景实操的?阿里巴巴未来生活实验室与智能引擎团队带你进一步来看。

第一部分:Agentic RL 中的 GPU 利用率挑战

在 Agentic RL 的采样过程中,系统需要支持越来越高的交互轮数,让智能体有足够的环境交互来处理复杂任务。然而,这一趋势带来了显著的资源调度挑战。

在实际采样中,智能体执行任务的时间分布呈现典型的长尾特征:绝大多数样本能够在较少轮数内快速完成采样并得出结果,而只有少数复杂样本需要执行到最大轮数限制才能终止。这种极不均匀的执行分布成为 GPU 资源利用的核心瓶颈。

问题的本质在于分布式计算中经典的 "落后者效应"(Straggler Effect):无论有多少样本已经完成,系统都必须等待最慢的那个样本执行完毕,才能进入下一阶段。等待过程成为整个训练流程的性能瓶颈,更造成 GPU 资源浪费。

1.2 方案对比与技术优势

业界针对 Agentic RL 训练存在两种主流解决方案,但都存在根本性缺陷:

共置方案采用严格的串行执行策略:所有 GPU 首先统一投入 rollout 阶段,等待全部样本采样完成后再切换至 training 模式。这种方案存在双重效率问题。首先是阶段内的资源闲置:在 rollout 阶段,由于落后者效应的存在,大量 GPU 在短样本完成后进入闲置等待状态,无法有效利用。其次是阶段间的严格串行限制:rollout 和 training 完全无法并行执行,training 阶段必须等待 rollout 完全结束才能开始,导致整体迭代时间被显著拉长。

异步分离方案通过静态分配专用的 rollout GPU 和 training GPU 实现流水线并行。虽然理论上能够缩短单轮迭代时间,但引入了严重的 "双边空泡" 问题。在 rollout 侧,短样本快速完成后,rollout GPU 进入闲置状态等待长尾样本执行完毕;在 training 侧,训练任务完成后需要等待新一轮 rollout 数据,training GPU 同样处于闲置状态。使得理论上的并行优势在实际运行中大打折扣。

我们提出的时分复用方案通过 GPU 池动态分配机制解决上述问题。其核心创新基于一个关键洞察:异步训练过程中,rollout 对 GPU 资源的需求呈现动态波动特征。在 training 触发前,大量样本已进入完成阶段,系统处于样本数目的低谷期,此时对 GPU 资源的需求自然下降。相反,在训练结束后,新一轮大量样本涌入系统,对 GPU 资源的需求急剧激增,形成明显的高峰期。基于这一波动规律,我们设计了智能资源调度机制,在采样需求低谷期分配部分 GPU 资源用于执行训练任务,从而实现需求波动与资源调度的有效匹配。

系统采用两阶段执行流程来实现这一设计理念。在全力采样阶段,所有 GPU 协同处理大多数样本,快速推进系统至需求低谷状态。当采样完成度达到训练要求时,系统执行缩容操作,释放固定的 rollout GPU 资源转入训练模式。随后进入并行执行阶段,被释放的 GPU 专门执行训练任务(充分利用低谷期的闲置资源),而长尾样本被迁移至剩余 GPU 继续处理。训练任务完成后,系统立即执行扩容操作,回收所有 GPU 资源恢复全力采样状态,为应对下轮需求高峰做好准备。

这种基于工作负载特征的智能时分复用策略,不是简单的资源分割,而是将训练的快速执行特性与 rollout 需求波动在时间维度巧妙匹配提升了整体的 GPU 资源利用效率。

以 4GPU 系统为例,我们比较各个方案的任务执行时间线。

图片

时分复用方案的核心挑战在于系统复杂度的显著提升。为了追求高性能,需要精细复杂的控制机制,在分布式高并发的系统中实现尤其困难。相比串行执行和静态资源分配,动态调度引入了诸多技术难点:分布式环境下的精确同步控制,以及扩缩容操作的原子性保证,并发场景下样本状态的无缝迁移。

图片

各个方案的优缺点

在一个包含数万行代码的分布式 RL 系统中,手工编码不仅周期长,更易引入隐蔽的状态不一致 bug。传统的开发方式已难以应对这种「高价值、高复杂度」的功能迭代需求。

正是在这一背景下,我们创新性地采用了文档驱动的 Vibe Coding 方法论,通过系统化的设计文档驱动开发流程,显著提升了复杂系统的实现效率和代码质量。

第二部分:文档驱动的 Vibe Coding 方法论

前文提到的氛围编程三大痛点,上下文丢失、决策偏离、质量不稳定,其根源都指向同一个问题:缺乏持久化、结构化的决策管理机制。

要理解设计文档如何解决这一问题,我们需要先认识到代码实现的本质:它是由成百上千个相互关联的决策点构成的。从顶层的架构选择、接口设计,到底层的变量命名、错误处理,每个决策都影响着最终的代码质量。在理想情况下,如果 AI 已经掌握了完整的代码改动(如代码迁移任务),它可以直接复制执行这些修改。但现实中,我们要解决的往往是全新的问题,比如本文的 "训练 - 推理时分复用优化" 功能此前从未实现过。

既然没有现成的代码可以参考,那么退而求其次,如果我们能够系统化地枚举出所有决策点,AI 就可以按照这些明确的决策逐步生成代码。

设计文档正是实现这一目标的关键工具:它通过结构化的方式,将高层的设计思路逐步细化为具体的代码改动,完整记录每一个决策点。

经过程序员审阅的设计文档,意味着人与 AI 在关键决策上达成一致。这直接解决了氛围编程的三大痛点:持久化文档消除上下文丢失,明确决策避免 AI 偏离意图,规范和代码逻辑确保代码质量稳定。这带来工作方式的根本转变:程序员从编码、调试、测试等执行层面,转向与 AI 讨论设计,通过文档明确决策点直到完全对齐,然后 AI 负责实现。设计文档同时记录实施进度,确保可追溯性。更重要的是,设计文档本身由 AI 管理,大大降低了编写门槛。

图片

设计文档驱动的氛围编程和传统的 vibe coding 的工作流对比

图片

这三种开发方式的优缺点

2.1 核心方法论:设计文档驱动开发

在明确了设计文档的必要性后,我们需要建立一套系统化的方法论来指导实际操作。设计文档驱动开发不仅仅是编写文档,更是一种全新的开发范式:通过结构化的文档组织决策过程,通过迭代审阅确保决策质量,通过分步实施降低实现风险。

这一方法论的核心在于将复杂的系统开发问题分解为三个可管理的环节:内容组织(如何构建决策体系)、审阅修改(如何确保决策质量)、分步实施(如何将决策转化为代码)。每个环节都有明确的操作流程和质量标准,确保整个开发过程的可控性和可预测性。

2.1.1 流程概览

设计文档的审阅是一个迭代优化的过程,需要人和 AI 协作来确保文档质量。我们建立了系统化的审阅流程,通过多轮迭代逐步完善设计文档,直到达到实施标准。

总体审阅流程

图片

2.1.2 如何组织内容:开发者与 AI 共同完成

代码实现的结果是由一系列自顶向下的决策决定的,顶层的关键决策包括新功能如何融入已有架构,底层的决策如是否需要增加成员变量。组织设计文档的核心目的是系统性的跟进这些决策点,并逐步完善解决。由于底层的决策,往往依赖于顶层或者上层的决策,设计文档需要层次化的拆解决策,形成决策体系。开发者需要按照章节的先后顺序和目录层次结构审阅文档中的自顶向下的决策过程,当我们指出前面顶层设计的错误时,AI 会自动修改后面章节的中层和下层决策以保持内部逻辑的一致性。因此,我们可以按章节层次和顺序和 AI 逐个对齐自顶向下的决策。同时,在开发者和 AI 共同修正这些决策的过程中文档不断演进,文档需要自包含这个迭代的过程,记录迭代的版本。最后,文档也需要记录代码实施的进度和一些衍生的待办。

具体而言我们的设计文档模板包含如下内容:

图片

2.1.3 如何审阅修改:复用 iFlow CLI 的 prompt 模板

上文描述的逐章节审阅对齐的过程理论上已经完备,但实践中会遇到一系列挑战。为应对这些挑战,我们建立了多层次的文档质量保证机制。

由于这些场景在文档审阅中反复出现,我们利用 iFlow CLI 的 Sub Command 功能,将不同场景的指令逻辑固化成了自定义的 prompt 模板。

审阅挑战与解决方案对照表

图片

2.2 设计文档的实施

2.2.1 如何分步计划和实施

当 Section 5 完成所有 API 和 Implementation 的设计后,我们需要将这些设计转化为可执行的代码。这个转化过程分为两个阶段:首先规划 Section 6 制定实施步骤,然后进入 AI 辅助的增量开发循环。

规划实施步骤: 规划的核心目标是将 Section 5 中的方法拆解为依赖有序的小步骤。我们首先分析每个方法的 deps: 字段,识别底层 helper 方法和高层 orchestration 方法之间的依赖关系,绘制出完整的依赖图。在拆解步骤时,我们遵循 "每步越小越好" 的原则,通常一个 Step 包含 3-5 个相互关联的方法,避免单个 Step 包含超过 10 个方法。步骤的排序遵循依赖关系:Step 1 通常是基础设施(配置、常量、基础类),Step 2 到 Step N 按照从底层到高层的顺序排列,最后一个 Step 负责集成和端到端测试。每个 Step 都定义清晰的验证点和测试用例覆盖,确保可以独立验证和方便回退。

规划完成后,我们得到一个清晰的依赖图,指导后续的增量开发:

图片

增量开发循环: Section 6 规划完成后,我们进入实施阶段。对于每个 Step,AI首先读取 Section 6 中的 purpose 和 dependencies,以及 Section 5 中相关方法的 Signature 和 Implementation,然后按照 docstring 和代码实现具体代码,同时展开 validation placeholders 为实际的验证逻辑。AI 完成编码后,会自动更新 Section 6 中该 Step 的状态,将方法从 NOT_STARTED 改为 DONE。

接下来是人工代码审查环节。我们使用 IDE 的 Local History 功能查看当前 step 的代码改动,重点检查代码是否符合 Section 5 的设计、是否正确实现了 validation 和 assertion、是否存在明显 bug。如果发现问题,小范围修正或进入错误处理流程(见 2.2.3)。审查通过后,我们创建一个 git commit,commit message 遵循 "Step N: [描述]" 的格式,然后继续下一个 Step,重复这个循环直到所有 Steps 完成。

2.2.2 防御性编程:让复杂系统更可靠

在分布式 AI 训练环境中,微小的错误可能触发级联故障,而异步操作和资源调度的复杂性使得问题追溯本就困难。更糟糕的是,AI 编程倾向于主动做错误处理,这种 "善意" 的处理机制往往弄巧成拙,掩盖了真实的错误信息,使得问题定位变得更加复杂。我们真正需要的是防御性编程,让错误主动暴露而不是被掩盖。然而,传统的防御性编程因其开发繁琐性和进度压力常被开发人员选择性忽略,导致系统健壮性完全依赖个人自觉。为此,我们将防御性思维前置到设计阶段:在关键节点设置验证点,构建标准化的错误处理模式库,利用 AI 技术自动生成健壮的防御代码,从而在保证开发效率的同时实现快速问题定位,显著降低维护成本。

统一的验证模式库: 我们维护了一个包含常用验证模式的库,每个模式都有唯一的 ID 和标准化的实现。这些模式遵循单一定义,多处复用原则。当需要在代码内增加某个验证逻辑时,只需在注释中加入模式库中的一处定义,AI 实施时会按 ID 查表展开,确保整个代码库中相同验证逻辑的一致性。

图片

设计阶段的验证标注: 在 Section 5 的设计文档中,我们不直接编写完整的验证代码,而是用标准化的注释标注验证需求。以 shrinksampler () 函数为例,通过 VALINTRANGE 标注 GPU 列表的合法性验证,通过 ASTPOSTCONDITION 标注返回结果的有效性检查。这种标注方式清晰表达了验证意图,同时保持了设计文档的简洁性。

def shrink_sampler (self, target_gpus: List [int]):
    # VAL: VAL_INT_RANGE (min=0, max=7)
    # 将在实施时展开为实际 validation 代码
    offload_ranks = self._calculate_offload_ranks (target_gpus)
    # AST: AST_POSTCONDITION (len (offload_ranks) > 0)
    # 将在实施时展开为 assert 语句
    return offload_ranks

AI 自动展开验证逻辑: 当 AI 根据设计文档生成代码时,会自动将标注中的模式 ID 展开为具体的验证逻辑。参数范围验证会展开为完整的条件检查语句,后置条件会生成带有详细错误信息的 assert 语句。这种自动展开机制避免了人工编码时的遗漏和不一致。

# 设计文档中的标注:
# AST: AST_POSTCONDITION (len (offload_ranks) > 0)
# AI 实施时展开为带详细信息的断言:
assert len (offload_ranks) > 0, \
    f"Post-condition: offload_ranks not empty, got {offload_ranks}"

复杂验证的独立处理: 当验证逻辑超过 10 行时,内联展开会让代码变得臃肿难读。对于这类复杂验证,我们在设计文档中定义专门的验证函数,详细描述验证项和错误处理策略。例如 validategpuallocation () 函数负责验证 GPU 分配逻辑的完整性,包括检查 targetgpus 非空、确保 GPU ID 在有效范围内等。在实施计划中,我们会安排专门的步骤来实现这些复杂验证函数,为后续的核心逻辑步骤提供坚实的基础。

#### 5.2.8 _validate_gpu_allocation () - Full Specification
def _validate_gpu_allocation (self, target_gpus, current_allocation):
    """ 验证 GPU 分配的复杂逻辑。
    检查项:
    - target_gpus 非空且元素唯一
    - GPU ID 在有效范围内
    Raises:
        ValueError: 违反任何检查条件
    """
    # 10-20 行的详细 validation 逻辑

第三部分:在生产级别的大规模集群上验证

3.1 实验配置

我们在生产级别的大规模集群上验证了时分复用方案的实际效果。实验环境采用 160 卡 GPU 集群,选择了具有代表性的 SWE Agentic 工作负载作为测试场景。模型使用 Qwen3-235B-A22B,这是一个具有 235B 参数规模、22B 激活参数的大规模语言模型,能够充分体现真实生产环境的计算压力。

为了模拟真实的智能体长时交互场景,我们将最大交互轮数设置为 100 轮,最大 token 长度为 64K,batch size 为 512。我们设置异步训练的 async ratio 为 1,这样的配置确保了实验的真实性和挑战性。在对比方案设置上,我们将时分复用方案与传统的异步分离方案进行对比:baseline 采用 128 卡用于 training、32 卡用于 rollout 的静态分配策略,而时分复用方案则采用 128 卡 training、160 卡 rollout 的动态调度策略。

3.2 性能对比分析

实验结果显示时分复用的 rollout 吞吐率提升了 3.5 倍。时分复用方案的 rollout 阶段几乎始终比完全分离的 baseline 要快,甚至在某些情况下训练任务无需等待 rollout 即可开始,性能提升明显。

图片

更值得关注的是任务完成率的提升。在 baseline 的完全分离方案中,由于 rollout 资源受限(仅 32 卡),导致采样速度较慢,大量任务触发了环境默认的超时限制,采样轨迹的 timeout 比例居高不下。而时分复用方案通过动态释放更多 GPU 资源用于 rollout,显著加快了采样速度,完全避免了 timeout,提升了整体训练的稳定性和样本利用效率。

图片

3.3 系统开销分析

在评估时分复用方案时,我们也仔细分析了引入的系统开销。参数同步开销方面,由于时分复用方案需要在更多的 GPU 之间进行参数同步(160 卡 vs 32 卡),相比分离方案会产生额外的通信开销,但这一开销在整体训练整体时间中占比极小。

图片

缩容操作的开销主要来自于 rollout 模型参数的 offload 过程。当系统需要将部分 GPU 从 rollout 模式切换到 training 模式时,需要从显存中将 rollout 参数释放,实测耗时在秒级。尽管这一操作引入了额外的同步点,但由于缩容操作开销极低,因此并未成为性能瓶颈。

综合来看,时分复用方案通过智能的资源调度策略,在引入极小系统开销的前提下,显著提升了 GPU 利用率和训练效率,特别是在降低 timeout 率方面表现突出,充分证明了该方案在大规模 Agentic RL 训练中的实用价值。

第四部分:团队介绍

本文是 ROCK & ROLL 团队使用 iFlow CLI 在开源框架实践中的探索成果,后续相关功能将持续迭代并陆续发布。

ROCK & ROLL 由阿里巴巴未来生活实验室与智能引擎团队联合打造,致力于开拓强化学习(RL)的未来,探索面向未来的创新生活方式。ROLL 是灵活高效的 Agentic RL 训练框架,支持从十亿到千亿参数大模型的优化训练;ROCK 是易用、可扩展的沙箱环境管理器,可在分钟级拉起海量环境。我们坚持工程系统与算法协同创新,持续关注 RL 社区发展并分享开源实践,为 RL 在不同场景中的规模化落地提供坚实的基础设施支持。

iFlow CLI 是阿里巴巴未来生活实验室推出的一款终端 AI 智能体,支持通过自然语言进行交互。它能够高效分析代码仓库、完成各类编程任务,并准确理解特定的上下文需求;同时可将从基础文件操作到复杂工作流的流程自动化,显著提升开发者的工作效率。

欢迎关注、Star、试用并贡献代码,一起推动 RL for LLM 走向更广阔的实用化未来。

  • ROCK: https://github.com/alibaba/ROCK
  • ROLL:http://github.com/alibaba/ROLL
  • iFlow CLI: https://cli.iflow.cn/

....

#Sliding Window Recurrences for Sequence Models

注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案

Transformer 已经改变了世界,但也并非完美,依然还是有竞争者,比如线性递归(Linear Recurrences)或状态空间模型(SSM)。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往并不如人意,会受限于内存带宽和全局同步带来的高昂通信成本。

近日,Radical Numerics 与蒙特利尔大学 Yoshua Bengio 团队找了一个新思路,为 LLM 的效率进化提供了一个极具启发性的工程视角。该团队通过将线性递归重新定义为硬件对齐的矩阵运算,提出了一套能够相当完美契合 GPU 内存层级的算法框架。

  • 论文标题:Sliding Window Recurrences for Sequence Models
  • 论文地址:https://arxiv.org/abs/2512.13921

该研究有三位共一作者:Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli。他们都是 Radical Numerics 的成员,这家旨在打造科学超级智能的创业公司已经取得了一些亮眼的突破性进展,包括首批使用百万级上下文窗口训练的模型以及 Evo 和 Evo 2 这两个生成式基因组学模型。

核心挑战:打破线性递归的「内存墙」

该团队首先指出,尽管并行扫描(Parallel Scan)算法在逻辑上能以 O(log n)的深度并行化处理递归,但它们在现代分级内存硬件上表现得并不理想。

传统的并行扫描算法,如 Kogge-Stone,具有极低的算法深度,但其数据访问模式往往跨越全局地址空间,导致频繁的全局内存同步和洗牌操作。

图片

在 GPU 这种具有多级缓存(寄存器、共享内存、显存)的架构中,这种「扁平化」的算法策略不仅无法有效利用数据局部性,更无法发挥 Tensor Core 等专用矩阵乘法硬件的计算峰值。

这种由于数据移动而非计算本身导致的瓶颈,正是长文本大模型训练和推理中亟待解决的「内存墙」问题。

为了从数学层面拆解这一问题,论文引入了转移算子(Transfer Operator)的矩阵理论。

线性递归系统 

图片

 可以被视为一个单位下三角线性系统 

图片

。通过对该系统进行分块处理,该团队揭示了转移矩阵 𝑳 背后深层的层级分解结构:

图片

在这个公式中,𝓛 代表各数据块内部的独立计算,而 

图片

 则描述了跨块之间的「载体(Carrier)」信息传递。

这一分解揭示了一个关键点:跨块通信的本质是秩 - 1(Rank-one)的低秩更新。这为消除全局同步提供了理论上的切入点。

解决方案:滑动窗口循环与 B2P 算法

该论文最核心的贡献是提出了滑动窗口循环(SWR),这是一种通过策略性截断计算视界来换取极高吞吐量的原语。

作者观察到,在实际训练的稳定系统中,系数 a_i 往往满足 

图片

,这意味着输入对状态的影响会随距离呈指数级衰减。因此,强制维护长程依赖在数值上往往是冗余且昂贵的。SWR 采用了独特的锯齿状窗口(Jagged Window)结构,而非传统的均匀窗口,这种结构能自然地对齐硬件的工作负载。

图片

为了将这一理论落地,作者开发了块两步(Block Two-Pass, B2P)算法及其对应的 CUDA 内核。

图片

该算法将计算过程分为两个阶段:

在第一阶段,每个线程束(Warp)并行处理一个大小为 16 的本地块(与 Warp 大小对齐),利用 Tensor Core 通过 GEMM 方式完成高效的本地递归求解。

在第二阶段,算法通过 GPU 片上的共享内存(SMEM)或分布式共享内存(DSMEM)在相邻块之间传递状态载体,并进行即时的秩-1 补偿。

这种设计确保了输入数据只需从显存读取一次,所有中间通信均发生在芯片内部,实现了接近恒定的 O (1) 算法深度和极佳的硬件利用率。

图片

图片

Phalanx 层设计与层级架构集成

基于 B2P 算法,作者设计了名为 Phalanx 的新型计算层,它可以作为滑动窗口注意力或线性递归层的无缝替代品。在层参数化方面,Phalanx 遵循极简原则,通过 Sigmoid 激活函数将递归系数 a_i 限制在 (0, 1) 的稳定区间内,从而保证了长序列处理时的数值稳定性。

图片

同时,该层采用了基于头(Head)的参数共享模式,每个头共享一套递归系数,这与 Tensor Core 处理 16×16 矩阵瓦片的计算模型完美契合。

Phalanx 被定位为混合架构中的「局部专家」,专门负责高效捕获短程令牌互动,而将长程路由任务交给全局注意力层。这种职能分工使得模型能够在不损失精度的前提下,大幅减少跨内存层级的数据移动。

更多细节请访问原论文。

实验结果:速度与质量的双重突破

在针对 1.3B 参数规模模型的系统性测试中,Phalanx 展现出了显著的性能优势。在 FineWeb-Edu 数据集上,Phalanx+Attention 混合模型在多个维度上超越了优化的 Transformer 和滑动窗口注意力(SWA)基准。

图片

在训练吞吐量方面,当上下文长度在 4K 到 32K 之间时,Phalanx 混合模型实现了 10% 到 40% 的端到端提速。

图片

在 8K 上下文的训练任务中,Phalanx 混合模型的训练速度比传统的 SWA/Attention 混合架构快 28%,甚至在短序列长度下也表现卓越,在 Hopper GPU 上比纯注意力模型提升了 10% 的训练吞吐量。

在模型精度方面,实验数据显示 Phalanx 在匹配 Transformer++ 基准性能的同时,甚至在特定比例下取得了更低的困惑度。

例如,在 1:1 的混合比下,Phalanx 达到了 10.85 的困惑度,优于 Transformer++ 的 10.95。

图片

此外,通过对衰减系数和门控机制的消融实验,作者证明了其精心设计的参数化方案对于维持模型表现的关键作用。更多详情请参阅原论文。

总结与行业意义

《Sliding Window Recurrences for Sequence Models》为下一代长文本模型架构指明了一个方向:真正的效率并非仅仅来自算法复杂度的降低,更来自于对底层计算硬件物理特性的深刻理解与对齐。

通过将数学上的线性递归转化为硬件友好的块级矩阵运算,Phalanx 层成功在训练速度与模型质量之间找到了一个更优的平衡点。

随着 2025 年之后 LLM 继续向超大规模上下文和实时xx智能演进,这种硬件感知的算子设计将成为构建更绿色、更强大 AI 系统的核心基石。

.....

#Rue

曾对AI嗤之以鼻,如今2周生成7万行代码:Rust大佬与Claude联手打造新语言Rue

2025 年 12 月 21 日,Steve Klabnik 迎来了他使用 Rust 的第十三个年头。作为 Rust 社区早期的核心人物之一,他在技术圈有着特殊的地位。在即将迈入 40 岁门槛之际,他在博客中坦言,过去几年过得颇为艰难,但现在的状态是「非常快乐」。

图片

这种心态的转变,很大程度上源于他对工具看法的改变。Klabnik 坦言,自己曾经是个不折不扣的 AI 怀疑论者。然而,到了 2025 年,他发现自己已经无法忽视工具带来的便利,他现在编写的大部分代码,实际上都是由 Claude 完成的。

他并没有鼓吹 AI 无所不能,只是务实地表示:对于非编程领域的生成式 AI,他依然保留意见;但在软件开发这块,目前的 LLM 已经足够好用,真正成为了得力的工具。

既然有了新工具,他决定重启一个搁置多年的念头:设计一门属于自己的编程语言。

Rue:在缝隙中生长的语言

这个新语言被命名为 Rue。起名的逻辑很「程序员」:因为他做过 Ruby,也做过 Rust,按照字母顺序,新语言必须以 Ru 开头。Rue 既有「后悔」(to rue the day)的自嘲意味,也指代一种植物(芸香),就像 Rust 既是铁锈也是锈菌一样,兼具好坏双重隐喻。

但在玩笑之外,Rue 的技术定位非常严肃。Klabnik 试图探索编程语言设计中一个长期被忽视的「中间地带」:既要像 Rust 那样实现没有垃圾回收(GC)的内存安全,又要像 Go 或脚本语言那样易于上手。

目前的系统编程语言往往处于两个极端:要么是 C++ 或 Rust 这样性能极致但学习曲线陡峭的「硬核」语言;要么是带垃圾回收、牺牲部分控制权的语言。Rue 试图做个妥协,它不追求 C 语言级别的极致性能,愿意牺牲一点点运行效率,换取更符合直觉的开发体验。

但 Rue 最值得关注的不是语法,而是它的开发方式。

Klabnik 透露,仅仅两周时间,Rue 项目就已经包含了约 70,000 行 Rust 代码。如果是纯手工编写,这个进度简直不可想象。

他在接受技术媒体 The Register 采访时,详细描述了这种「新式编程」的工作流:

  • 人类(Klabnik):负责所有的顶层设计、架构决策、以及最关键的代码审查。
  • AI(Claude):负责编写具体的实现代码。

甚至在一篇项目日志中,Claude「亲自」总结了进度,并留下了一句颇为精准的评价:「诚实地说,这 130 次提交中大多数都有我的指纹…… Steve 负责导演,而我负责写代码。」

Klabnik 对此有一个精辟的见解。他认为,AI 并不是让不懂编程的人突然变成了大师,它更像是一种高阶工具,类似于 Vim 编辑器,它门槛很低,谁都能聊两句;但上限很高,只有懂软件工程原理的人,才能用它构建出结构严谨的复杂系统。

为什么 Rust 成了 AI 的「完美搭档」?

就在 Klabnik 公布 Rue 的几天后,OpenAI 的联合创始人 Greg Brockman 在 X 上发的一条帖子,从另一个侧面印证了 Klabnik 的实践。

图片

这个帖子在技术圈引起了不小的共鸣。用过 Rust 的人都知道,它的编译器出了名的「严格」甚至「啰嗦」,很多在 Python 或 C 中能跑但会崩溃的写法,在 Rust 里根本无法编译。

图片

「Frustracean」是对 Rust 吉祥物(螃蟹)和处理编译器时产生的挫败感的双关语。它形象地描绘了 AI 智能体在应对 Rust 严格性时的挣扎。

在 AI 编程的语境下,这个曾经让初学者头疼的特性,竟然成了最大的优势:

  • AI 的短板:AI 生成代码容易出现逻辑微小但致命的错误(幻觉)。
  • Rust 的互补:编译器充当了第一道严苛的质检员。如果 Claude 写的 Rust 代码能过编译,那么内存安全、类型匹配等一大类错误就已经被排除了。

图片

图片

这就是为什么 Klabnik 能放心让 AI 写几万行代码的原因——编译器帮他守住了底线。

目前的 Rue 还很粗糙,Klabnik 也表现得非常佛系。他没有承诺要建立什么庞大的社区,也不打算把它变成下一个 Rust,仅仅是作为一个「为了好玩」的业余项目。他保留了随时因为「不好玩了」而停更的权利。

但这个实验本身已经足够说明问题:到了 2026 年,即使是构建编程语言这样硬核的系统工程,人类开发者的角色也正在从「泥瓦匠」转变为「建筑师」,而那些拥有严格约束的语言,反而因为「难写」,意外地成为了 AI 时代最可靠的地基。

参考链接:

​https://steveklabnik.com/writing/thirteen-years-of-rust-and-the-birth-of-rue/​

​https://www.theregister.com/2026/01/03/claude_copilot_rue_steve_klabnik/​

.....

#近十年后谷.歌与波士顿动力再「牵手」

这次要为人形机器人注入「灵魂」

近日消息,在拉斯维加斯举行的 CES 2026 上,波士顿动力与谷歌 DeepMind 宣布达成一项全新的 AI 合作伙伴关系,旨在为人形机器人开启一个全新的人工智能时代。

图片

谷歌 DeepMind 也同步更新了这一消息。

图片

据了解,双方计划将前沿的 Gemini Robotics AI 基础模型与波士顿动力全新的 Atlas 人形机器人进行深度整合。

这项战略合作将重点放在赋能人形机器人完成多种工业任务,并有望成为制造业转型的重要推动力,首个重点应用领域便是汽车行业。

资料显示,联合研究工作预计将在未来数月内启动,并将在两家公司内部同步展开。

波士顿动力公司 Atlas 机器人行为负责人 Alberto Rodriguez 表示,对这次双方的合作感到非常高兴。

据他透露,当前波士顿动力计划打造全球能力最强大的人形机器人,因此需要一个合作伙伴,帮助为这些高度复杂的机器人建立全新的视觉 - 语言 - 动作(VLA)模型。「在构建可靠、可扩展的模型方面,没有比 DeepMind 更合适的团队了,这些模型可以安全高效地部署到各种任务和行业中。」

诚然,从 BigDog 到 Spot,再到如今的 Atlas,波士顿动力机器人在动力学、平衡控制等方面确实声名远播,但随着大模型的快速发展与落地,机器人也早已开启新的叙事方式,在强健的「身体」之外,能感知、推理、学习和决策的机器人「大脑」显得更为重要。但在这一点上,无疑是波士顿动力的短板。

而谷歌 DeepMind 近年来在机器人 AI 基础模型上面的进展也是有目共睹的,例如基于大规模多模态 Gemini 模型构建的 Gemini Robotics,旨在赋予机器人感知环境、理解指令、规划行动和与人交互的能力。

对此,谷歌 DeepMind 机器人高级总监 Carolina Parada 表示,「我们开发 Gemini Robotics 模型是为了将 AI 带入物理世界,很高兴能与波士顿动力公司团队合作,探索他们新型 Atlas 机器人的各种可能性,同时开发新的模型来扩大机器人技术的影响范围,并安全高效地扩展机器人规模。」

此次双方展开合作可谓是强强联手,一方面,DeepMind 为波士顿动力的机器人注入「灵魂」,使其具备了前所未有的智能水平,另一方面,波士顿动力则提供了一流的硬件平台,让 DeepMind 的先进 AI 算法有了施展拳脚的舞台。

而网友们也纷纷看好他们彼此的合作,或将人形机器人的发展推向新高度。「看来超级大脑找到了它的超级身体。」

图片

Today in AI 则认为,Gemini Robotics 的基础能力与 Atlas 硬件相结合,代表了前沿模型与物理驱动的融合,应用于机器人的 Scaling Laws 重新定义了xx智能,通用智能体是合乎逻辑的结果。

图片

有意思的是,前段时间宇树人形机器人在舞台上与舞蹈演员劲歌热舞的视频在 X 上流传甚广,引起网友们的惊呼,而此次谷歌与波士顿动力的合作似乎让他们看到了希望。

一位名为 Super Nick 的网友称,太期待看到一场真正的「智能正面对决」了:一边是像 Gemini 驱动的 Atlas 这样的西方机器人,另一边是中国阵营里动作迅猛的宇树或优必选人形机器人。也许就在 RoboCup 2026,或者下一届世界人形机器人运动会上,这一切就会发生,那一定会非常震撼。

图片

还有一些资深网友乍一看到消息,有点懵,「一时间还以为是买断。」「那你当时为什么还要卖掉它?」

图片

图片

其实,这并非谷歌与波士顿动力第一次产生交集,只不过彼时的合作结果并不理想。

早在 2013 年 12 月,谷歌就曾通过并购将波士顿动力收入麾下,成为其机器人版图中的核心资产之一。然而三年半后,或许是认为波士顿动力难以在短期内推出可市场化产品,谷歌便转手将其出售给软银集团。

此后,两者沿着各自的故事线演进,波士顿动力在软银与现代汽车集团的支持下,持续深耕机器人本体与运动控制能力,而谷歌则将重心进一步收敛到 AI 基础研究与大模型方向……

如今,双方再度「牵手」,更像是一次技术条件成熟后的回归,谷歌历经低谷,却又凭借以 Gemini 为代表的大规模、多模态基础模型体系强势逆袭,重夺 AI「铁王座」,而波士顿动力则完成了新一代 Atlas 人形机器人的形态与能力重构。

一方需要成熟的人形机器人平台来补足硬件的拼图,另一方则需要面向物理世界的 AI 基础模型来强化「盔甲」,多年前合作时缺乏的生长条件在当下得到完善了。

那么问题来了,这次的合作到底于谁的意义更大?到底是波士顿动力的胜利,还是谷歌机器人的开端?而有一点可以肯定的是,波士顿动力与 DeepMind 的合作无疑为大家描绘了一幅令人神往的未来图景。

接下来就拭目以待,看这两位科技巨头如何携手创造历史,进入一个人机共存、共创未来的新纪元。

参考链接:

​https://bostondynamics.com/blog/boston-dynamics-google-deepmind-form-new-ai-partnership/​

​https://x.com/GoogleDeepMind/status/2008283100254494916​

.....

#再见,程序员!马斯克宣判

~奇点就在2026

这几天,Claude Code在全网掀起的阵仗可真不小。

一睁眼,地球首富马斯克重磅宣告:我们已进入奇点!

起因竟是,Midjourney创始人公开称,圣诞假期自己敲的代码,比过去十年加起来还要多,简直太疯狂。

「虽然能感到局限,但我知道一切都不再一样了」。

同一天,马斯克不止一次,直接宣称「2026年就是奇点之年」。

这个点评同样是对Claude Code的高度赞扬。

如今,包括Anthropic之父、前DeepMind/OpenAI研究员、谷歌首席工程师等大佬在内,都为其感到震惊。

马斯克:2026,奇点降临

一直以来,奇点这一概念就像科幻词一般的存在。

雷·库兹维尔曾在2005年《奇点临近》一书中,预测道技术奇点大约发生在2045年。

而在最新出版的《奇点更近》著作中,他再次重申奇点时间:仍是2045年。

谁曾想,这个看似还很遥远的时刻,一下子被拉到了现在——2026年。

所谓的技术奇点,是指技术在长期内增长缓慢,但在某个临界点急剧加速,呈指数式上升。

能够让马斯克有这么深感触,竟是Claude Code席卷全网的强大编程能力。

一点也不夸张地说,2026年开年这局,身边的人都瞬间成为了Claude Code用户。

生物医学工程师Derya Unutmaz虽不是专业程序员,升级订阅就是为了更频繁使用Claude Code。

就连xAI联创Igor Babuschkin感慨道,「有些年头风平浪静,啥大事没有,可有些星期却浓缩了数十年的变迁」。

一夜之间,Claude Code为何变得这么强了?

真正的「民间高手」:Claude Opus

准确来说,不是它变强了,而是一直就很强。

去年11月底,超大杯Claude Opus 4.5一出世,Anthropic便宣称其是全球最顶尖的编码模型。

内部测试中,Opus 4.5+Claude Code联动使用,平均效率暴增220%。

当时,Anthropic工程师预言,也许就在2026年上半年,软件工程就被终结了。

如今看来,可能就在最近了。

刚刚,在最新升级的LiveBench榜单上,Claude Opus 4.5登顶,直接碾压GPT-5.1 Codex MAX、Gemini 3 Pro。

创始人Bindu Reddy称,在圣诞假期期间,团队改进了LiveBench,为了防止AI刷分作弊。

这个排名在很大程度上,反映了这些LLMs在现实世界中的表现。

去年12月,METR的一份报告揭秘了,全球最能打的AI还是Claude Opus 4.5。

它在自主编码任务中,能够连续5小时不崩,也是迄今为止公开的AI完成长程任务时间最长的模型。

AI大佬Simon Willison表示,Opus 4.5和GPT-5.2就像是一个转折点。

「模型逐步跨越到了一个隐形能力界限的时刻,忽然间,大量的编码难题都被解决了」。

即便是编程0经验的人,也能在不到十分钟的时间,打造出一款功能齐全的网页应用。

就像网友所言,如果不出意外的话,Claude Code可能会让更多人成为百万富翁。

人类的最后一次发明

如果我们翻开哲学家戴维·查尔默斯(David J. Chalmers)那篇经典的《奇点:哲学分析》,会发现当下的疯狂景象,不过是这套严密逻辑推演的必然兑现。

论文地址:https://consc.net/papers/singularity.pdf

在查尔默斯的推导模型中,我们正处于一个被称为「扩展前提(Extension Premise)」的关键节点。

他将这一过程量化为从AI到AI+再到AI++的阶跃:

  • AI:人类水平的人工智能。
  • AI+:超越人类最强大脑的智能。
  • AI++:超级智能,其超越程度正如人类超越老鼠一般。

正如查尔默斯引用的I.J. Good在1965年的那个著名论断:「超智能机器(Ultraintelligent Machine)将是人类需要制造的最后发明」。

逻辑非常性感且冷酷:

  • 机器设计机器:既然设计机器本身是一种智力活动,那么一台超越人类的机器(AI+),必然能设计出比人类所能设计的更好的机器。
  • 递归的雪崩:这台被AI+设计出的新机器,拥有更强的设计能力,它将设计出下一代更强的机器。
  • 无限逼近:只要这台机器能通过编写代码来优化自身,我们将无可避免地迎来一场「智能爆炸」。

我们现在看到的,正是查尔默斯所描述的「速度爆炸」与「智能爆炸」的完美合流。

当模型开始比人类更擅长优化算法时,我们就不再是处于一个线性的增长曲线上,而是站在了垂直墙面的底端。

每个人都会成为软件工程师

奇点来临的那一刻,世界会有什么不同?

谷歌工程师Vaibhav Agarwal称,自己再也不用写代码了,现在70%-80%代码都是AI写的。

而他的工作仅是「代码审查」,角色发生了根本性的转变,具体是这么做的:

• 不再输入语法,用提示词(Prompt)来定义逻辑;

• 不再费力找 bug,而是审查AI给出的修改建议;

• 不再硬啃遗留代码,直接让AI把它讲明白。

许多工程师对此感到内疚,觉得自己像是在「作弊」。实际上并不是,他们是在进化。

Agarwal曾问过一位资深领导,关于一个所有人都害怕的问题:AI会取代我们吗?

他是这么说的——

AI是一个效率倍增器,而不是替代品。 

如果你过去每周完成1倍的工作量,现在预期则是,同一周内完成4倍的工作量。没有任何一家公司希望倒退。

如今,衡量「生产力」的标准已经被整体抬高了。

如果你因为自称是个「纯粹主义者」而拒绝使用 AI,那并不高尚——你只是慢了。

AI不会取代你。但一个借助AI、能完成4倍工作量的工程师……

满足网友的好奇,工程师用的是自家的Gemini

Hyperbolic创始人Yuchen Jin直言不讳,要是在读博期间有这些强大工具助力,自己不用耗费5.5年,可能一年就毕业了。

此前,奥特曼在采访中还曾表示,「用不了多久,每个人都会成为软件工程师」。

他随口抛出了一个关于未来工作方式和软件世界的超级观点,但很多人还没意识到这件事有多重要。

,时长01:12

核心想法其实很简单,自然语言,就是新的编程语法。

程序员大军终结,不需要庞大的开发团队才能做出第一个版本。只需描述出需求,AI直接把它做出来。

在复杂系统中,AI智能体会直接「住」在代码库里。它们会自己浏览repo、修复bug、补测试、重构代码,并自动提交修改。

一旦软件开发被自动化,同样的逻辑也会蔓延到运营、规划,甚至部分管理工作。

代码,只是倒下的第一块多米诺骨牌。

如果这一切真的发生,「学会写代码」本身就没那么重要了。

参考资料:

​https://x.com/DavidSHolz/status/2007650184680092158?s=20 ​

https://x.com/mark_k/status/2007842108988604569?s=20 https://x.com/kimmonismus/status/2007849472077033947?s=20 

​https://x.com/bindureddy/status/2007938526453928019?s=20 ​

​https://consc.net/papers/singularity.pdf​

.....

#Fellow名.单出炉

xxxx

.....

#PaCoRe

8B模型任务击败GPT-5?阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算

8B 模型在数学竞赛任务上超越 GPT-5!

阶跃星辰正式推出并行协同推理(PaCoRe, Parallel Coordinated Reasoning),这是一个全新的训练和推理框架,让大模型的能力不再受限于线性思维链的上下文窗口大小(Context Window)和处理速度,而是基于大规模并行协同的方式,让模型进行前所未有的广度和深度思考。

强大性能的 Gemini Deep Think 模式仅隐约透露其采用“并行思考”扩展测试时计算的思路;而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性,并完整开源模型,训练数据,推理管线从而加速该领域的研究与创新。

基于该框架,小模型亦能解锁百万级 Token 测试时计算(Test-Time Compute)。

经过大规模、基于结果的强化学习(Outcome-based RL)训练,阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基准测试中,它取得了 94.5 的高分,一举超越了 GPT-5 的 93.2 分。这一成绩的取得,得益于模型在解决单个问题时,能够有效利用高达两百万 Token 的计算量。

长程推理是人类智力皇冠上的明珠。正如人类需要数月甚至数年的专注思考来攻克最棘手的难题,通用人工智能(AGI)也必须在推理阶段大幅扩展其计算规模,PaCoRe的研究进展标志着在这个方向上迈出了坚实的一步。

  • 论文链接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdf
  • GitHub:https://github.com/stepfun-ai/PaCoRe
  • Hugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B

PaCoRe 框架

标准的思维链(Chain-of-Thought)推理与上下文容量是强耦合的:一旦窗口填满,推理就必须停止。PaCoRe 通过将推理的主要驱动力从 “串行深度” 转移到 “并行协同的广度”,成功解耦了这种关系。

图片

图 1:并行协同推理(PaCoRe)的性能表现。

左图: 在 HMMT 2025 上,PaCoRe-8B 展示了惊人的测试时扩展(Test-Time Scaling)能力。通过增加并行轨迹(Parallel Trajectories)和协同轮次(Coordinated Rounds),性能稳步提升,最终超越了 GPT-5。右图: 在 LiveCodeBench 上,普通的 RLVR-8B 模型无法利用增加的测试时计算量,而 PaCoRe 有效地解锁了这种综合能力,随着计算量的增加带来了显著的性能提升。

推理机制 (Inference)

图片

图 2:PaCoRe 的推理流程。

每一轮推理都会启动广泛的并行探索,将生成的轨迹压缩为精简的消息(Compacted Messages),并将这些消息与原始问题一起输入模型,以协同下一轮的推理。重复此过程

图片

 次,即可在遵守固定上下文限制的同时,产生数百万 Token 的有效测试时计算量(Effective TTC),最终的压缩消息即为系统的答案。

PaCoRe 的核心是一个按轮次运行的迭代消息传递架构。其工作流程如下:

1. 综合与并行探索 (Synthesis & Parallel Exploration): 在第 r 轮中,模型 

图片

 接收来自上一轮的一组精简消息 

图片

。随后,它并行启动

图片

个独立的推理轨迹

图片

2. 消息压缩 (Message Compaction): 为了不突破上下文窗口的限制,我们不能将所有原始轨迹反馈回模型。相反,我们应用一个压缩函数 

图片

 去除

图片

的中间推导过程,仅保留最终结论,形成新的消息集

图片

3. 迭代协同 (Iterative Coordination): 这些精简消息成为下一轮的上下文,使模型能够在多次迭代中修正理解、发现共识并纠正错误。为了确保收敛,最后一轮仅使用单一轨迹,生成最终的精简消息作为 PaCoRe 推理流水线的输出。

这种循环机制使得系统能够将 “有效测试时计算量(Effective TTC)”—— 即所有轨迹的 Token 总和 —— 扩展到远远超出模型物理上下文窗口限制的程度。

训练方法 (Training)

实现这一框架的主要挑战在于将模型从 简单聚合和 孤立推理 转移为主动合作。未经训练的推理模型常常在具有简单解结构的问题上使用诸如多数表决这样的简单规则,而在更加多样解的问题上,模型常常展现出 孤立推理 的现象:尽管在上下文中接收到了来自并行分支的丰富见解,但模型往往会忽略它们,试图从头开始重新解决问题。

为了克服这一问题,研究团队将综合阶段视为一个情景式强化学习环境。我们采用大规模、基于结果的 RL 来教会模型 推理综合 (Reasoning Synthesis) 能力:即审查并行分支、调和相互冲突的证据并提炼出统一解决方案的能力。

通过过滤训练数据,排除那些仅靠启发式规则就能解决的简单问题,我们迫使模型发展出真正的综合能力,将其从一个孤立的求解者转变为一个高效的协同者。

图片

图 3:PaCoRe 训练动力学。

左图: 训练奖励(Reward)和响应长度(Response Length)稳步增加,证明了训练的稳定性和有效性。右图: 在 HMMT2025 和 LiveCodeBench (2408-2505) 上的评估。性能报告基于 PaCoRe 推理设置中的单轮协同推理,参数为

图片

实验结果

研究团队将 PaCoRe-8B(初始化自基于 Qwen3-8B-Base 的内部后训练模型)与当前最具代表性的前沿推理模型进行了对比评估。

前沿级的性能表现

结果表明,并行协同机制使 8B 模型能够通过大规模扩展 TTC,获得远超标准解码限制的显著收益,在一些最复杂的数学和代码基准测试中超越了最先进的系统。

  • 数学 (HMMT2025): 在我们的高算力投入模式(High, 
  • 图片

  • )下,PaCoRe-8B 达到了 94.5% 的得分。这超过了领先的专有模型 GPT-5 的 93.2%。这一结果是通过将有效 TTC 扩展到每个问题约 200 万 Token 实现的。
  • 代码 (LiveCodeBench 2408-2505): 模型达到了 78.2%,与 GLM-4.6 和 Kimi-K2-Thinking 等大得多的前沿模型保持了竞争力。

“综合” 能力的涌现

图片

图 4:训练过程中模型输出中 “综合” 相关语言特征的演变。

研究团队绘制了 PaCoRe 训练期间,数学和代码任务生成解决方案中 “交叉检查” 类词汇(包括 'reference', ' 参考 ', 'Ref <number>', 'ref <number>')的频率。训练在这两个领域都激发并放大了这种综合能力。值得注意的是,模型最初在代码任务上很少进行交叉检查,这佐证了图 1 中代码任务在 PaCoRe 训练前测试时扩展性差的现象。

研究团队通过追踪训练过程中 “交叉检查”(cross-checking)语言标记的普遍性来探究 PaCoRe 的底层机制。如上图所示,基于结果的强化学习推动了这种行为在两个领域的稳步上升。模型显式地学会了引用同伴的消息(Referencing peer messages),这种行为在未经 PaCoRe 训练的模型中几乎不存在。这证实了 RL 根本性地改变了推理动态,使模型能够有效地利用大规模并行计算。

训练数据的通用有效性

除了框架本身,研究团队还发现为 PaCoRe 构建的训练语料库是一种密度极高的学习资源。经验观察表明,将我们发布的数据集作为标准 RLVR 的主要基底,也能带来稳健的性能提升。这表明我们的问题集 —— 经过精心筛选以要求真正的综合能力 —— 是训练通用强推理模型的高效催化剂。

结论与未来方向

PaCoRe 建立了一条通往大规模测试时扩展(Test-Time Scaling)的无限路径。通过围绕 “并行协同” 构建推理架构并针对 “综合能力” 进行训练,研究团队以将测试时计算扩展到数百万 Token,从而允许较小的开放权重模型在复杂任务上超越专有的前沿系统。

阶跃星辰团队将发布模型权重、训练数据和推理代码,以加速社区的研究。

展望未来,团队将 PaCoRe 视为通向以下更大目标的基础性一步:

1. 扩展极限 (Scaling the Extremes): 计划将 PaCoRe 应用于更强大的基础模型,扩展任务领域,并进一步扩大广度(并行轨迹)和深度(协同轮次),以攻克目前被认为无法解决的挑战。

2. 提升 Token 智能密度 (Boosting Token Intelligence Density): 虽然目前通过 “量” 来扩展,但研究团队的目标是最大化每一个计算单元的效用。这包括通过更好的组织、合作和轨迹间的劳动分工,实现更高效的并行探索。

3. 涌现多智能体智能 (Emergent Multi-Agent Intelligence): 研究团队有兴趣探索综合策略(Synthesis Policy)与消息传递机制的联合训练,构建一个极简却丰富的协作多智能体学习环境,这将是研究涌现式沟通、自组织和群体智能的宝贵试验场。

4. 衔接预训练与后训练的 “衔尾蛇” (Ouroboros): 研究团队打算利用 PaCoRe 流程开发先进的合成数据生成技术,以反哺并改进当前的预训练和后训练过程,形成良性循环。

.....

#谷.歌把AI同传放入所有耳机

干掉同传?谷歌把AI同传放入所有耳机,顺手发了个颠覆性的AI浏览器

Google 正在加速将其 Gemini 模型的能力融入核心产品线。

Google 周五宣布,正式向 Google 翻译引入其 Gemini 模型的各项能力。此次更新不仅带来了能够通过耳机进行的实时语音翻译 Beta 版体验,还大幅提升了文本翻译的语境理解能力,并扩展了应用内的语言学习工具。

Google 还通过 Google Labs 推出了一款名为「Disco」的实验性浏览器,试图用 AI 重构网页浏览体验。

把所有耳机变成「同声传译」设备

谷歌宣布,Google Translate 正在推出一项基于 Gemini 模型的全新 Beta 功能,允许用户通过耳机收听实时翻译。

,时长02:50

与以往仅限于 Pixel Buds 的独占功能不同,此次更新支持任何品牌的耳机。该功能旨在将佩戴耳机的用户设备变成一个实时的单向翻译工具。根据谷歌产品管理副总裁 Rose Yao 的介绍,这项功能不仅能翻译语言,还能保留说话者的语调、重音和节奏,从而让对话更加自然,也更容易区分不同的发言者。

无论是跨语言对话、在国外听讲座,还是观看外语影视作品,用户只需打开 App 点击「Live Translate」即可使用。

目前该 Beta 版本已在 Android 端的 Translate 应用中上线,支持超过 70 种语言。谷歌计划在 2026 年将该功能扩展至 iOS 平台及更多国家。

更懂「弦外之音」

除了语音功能,Google 还利用 Gemini 模型的高级能力重构了文本翻译体验。新的翻译引擎在处理俚语、成语或具有本地特色的表达时,能够更智能地解析上下文,而非进行生硬的逐字翻译。

Google 举例称,在翻译英语成语「stealing my thunder」(抢风头/抢功劳)时,Gemini 不会给出字面意思的翻译,而是根据语境捕捉其真实含义,生成更符合目标语言习惯的译文。

这一改进即日起在美国和印度推出,支持英语与近 20 种语言(包括中文、日语、德语、阿拉伯语和西班牙语)之间的互译。用户可通过 Android、iOS 应用及网页版体验。

另外,Google 还在进一步完善其翻译应用中的语言学习功能,使其更接近专业的语言学习软件(如 Duolingo)。

图片

语言学习工具现已扩展至近 20 个新国家/地区。英语使用者现在可以练习德语和葡萄牙语。孟加拉语、简体中文、荷兰语、德语、印地语、意大利语、罗马尼亚语和瑞典语使用者可以练习英语。

新增了基于口语练习的改进型反馈机制,以及「连胜打卡(Streak)」功能,记录用户连续学习的天数,以激励用户保持学习习惯。

用 AI 生成即时「网页应用」

在翻译工具之外,谷歌 Chrome 团队在 Google Labs 推出了一个更具前瞻性的实验项目:Disco(意为 Discovery)。这是一款全新的浏览器,其核心概念是「GenTabs」(生成式标签页)。

,时长01:42

什么是 GenTabs?不同于传统浏览器单纯展示网页,或目前主流 AI 浏览器仅提供文本摘要,Disco 试图通过 Gemini 3 模型将信息转化为「微型应用」。

当用户输入需求(例如「计划一次日本旅行」)时,Disco 不仅会打开相关的网页标签,还会根据这些网页的内容和用户的对话,自动生成一个包含地图、行程表和链接的交互式界面。

,时长00:07

这是一个「浏览器中的浏览器」。GenTabs 是动态的,如果用户打开了新的相关网页,GenTabs 会自动抓取新信息并更新到交互界面中。

Chrome 团队负责人 Parisa Tabriz 强调,Disco 并非旨在取代 Chrome,也不是要「吃掉」网页流量。相反,它鼓励用户打开真实网页作为 AI 的「锚点」,形成用户浏览网页与 AI 整理信息之间的良性循环。

目前,Disco 作为一个实验性项目,已开放 macOS 版本的等待名单。

.....

#扒了一下今年各家xxx公司的量产情况和订单金额......

25年xxx机器人量产的情况究竟是怎么样的?今年的答卷如何?xxxx智能之心也为大家做了一次调研。

近期Atlas项目负责人在社交媒体上爆料:现代汽车承诺部署数万台Atlas机器人。

计划在未来几年内,在其制造和物流业务中部署数万台机器人,包括Atlas人形机器人、Spot四足机器人和Stretch集装箱卸货机器人。针对量产能力的不足,作为传统汽车制造业的龙头,现代汽车近期还表示将整合汽车制造领域的专业生产能力,助力波士顿动力扩大机器人产量。

看到这里,25年xxx机器人量产的情况究竟是怎么样的?今年的答卷怎么样?xxx智能之心也为大家做了一次调研,已经放到我们的xxx智能之心社区内,欢迎加入交流。

2025年全球机器人量产订单

最近一直想盘下今年各家xxx机器人公司量产交付数量和金额情况,下面将会从全球几家头部xxx公司的订单和场景进行分析,所有number根据已公开的信息整理。若有不足或错误之处,欢迎联系指正。

宇树科技

宇树科技尚未透露今年具体订单量,年度营收预计超过12亿。

智元机器人

12月8号,智元机器人正式对外公布量产机器人数量累计5000台,其人形机器人目前已应用于娱乐、制造和物流等多个行业,同时也用于科学研究。除了全尺寸人形机器人和半尺寸人形机器人外,该公司还销售专为特定行业复杂操作设计的人形机器人产品。

优必选机器人

最近刚拿下广西防城港2.64亿元大单,用最新款能自己换电池的Walker S2机器人,承包了边境口岸的巡检岗和工厂的设施维护。

今年4月24日,优必选拿下了全球首份小批量xxx智能人形机器人采购合同,向汽车制造客户交付工业版Walker S1和商用版Walker C,分别用于产线作业和接待服务。

9月,其新一代工业机型Walker S2,拿下某国内企业2.5亿元订单,刷新了全球人形机器人单笔合同纪录。

紧接着的10月、11月,Walker S2又陆续拿下广西xxx智能数据采集中心项目1.26亿元订单、四川自贡1.59亿元订单、江西九江人形机器人数据采集与训练中心项目1.43亿元订单。

截至11月,其Walker系列全年累计规模化订单达到了13亿元。目前,优必选工业人形机器人产能已达到每月300台,预期2025年交付量将超过500台。

从产品布局来看,优必选目前的产品线主要覆盖消费级、工业级、教育科研、商用服务、智慧物流等方向。

特斯拉Optimus

马斯克曾明确将人形机器人Optimus定位为公司未来核心,预计贡献特斯拉80%市值,交付上25年12月底完成约5,000台Optimus V3试生产并小规模交付。2026年Q1计划大规模量产,年产能目标5-8万台,2026年底前产能达10万台,2027年目标百万台量产。

具体订单和量产能力,拭目以待吧~

智平方

今年9月11日,深圳慧智物联技术服务有限公司与智平方(深圳)科技有限公司在深圳宣布达成战略合作,双方计划未来三年内在惠科全球生产基地累计部署超1000台xxxx智能机器人,覆盖仓储物流、上下物料、零部件装配及质检测试等全流程环节。

星尘智能

今年9月2日,星尘智能(深圳)有限公司宣布与上海仙工智能科技股份有限公司达成人形机器人千台级订单战略合作。此次合作双方优势互补,通过“核心部件+整机应用”模式,联合构建AI机器人平台,积累规模化部署经验。其中星尘智能的绳驱机器人可以模拟人类肌腱用力方式,让AI机器人能够在物料配送、装配搬运、协作操作中展现高动态响应、高灵巧操作与高交互安全等优势。仙工智能的控制器则保障工业级的可靠性和成本优势。

订单落地的首批场景主要聚焦在工业、制造、仓储、物流,未来也会借助仙工智能的客户资源,尝试辐射到3C、汽车、自动化设备等更多细分场景。

松延动力

今年预计全年订单量突破2500台(高仿生机器人+教育科研机器人),订单金额超1亿元。

原力无限

今年10月,原力无限智能科技(杭州)有限公司与某文旅控股集团在杭州正式签署战略合作协议,项目金额高达2.6亿元人民币。

众擎机器人

众擎在资本市场上表现抢眼:2025年7月完成Pre-A++与A1轮融资,金额近10亿元,投资方包括京东(领投)、小鹏系星航资本、宁德时代旗下溥泉资本、银泰集团等。

3年内预计交付2000台,众擎机器人2025年已公开的订单和合作包括与多伦科技的2000台xxx智能机器人三年框架采购协议、与尚品宅配的智能家居生态合作,以及与英伟达、亚马逊等头部企业的场景化合作

乐聚机器人

年内已实现“百台级”到“近千台级”的交付节奏:今年1月17日完成第100台全尺寸人形机器人交付(北汽越野车),一季度交付近300台(同比翻倍);9月25日完成“人形机器人数据训练中心二期”100台“夸父”交付(8295w元订单),公司全年交付目标预计为2000台。

更多待续

.....

#OpenAI重新开源!

深夜连发两个推理模型,o4-mini水平,笔记本、手机可跑

终于,OpenAI 的新发布还是来了。

虽然不是我们期待已久的 GPT-5,但也是「something big-but-small today.」

图片

也就是开源新语言模型。

要知道,这是近几年来(自 GPT-2 以来),OpenAI 重新开源模型。

据在 OpenAI 任职研究科学家的清华校友翁家翌透露,从 2022 年 OpenAI 内部就讨论模型开源,并曾数次接近「开源」目的,但直到今天才实现。

图片

这次还一下开源了两个,都是推理模型。

图片

  • GitHub 地址:https://github.com/openai/gpt-oss
  • hugging face 地址:https://huggingface.co/openai/gpt-oss-20b
  • hugging face 地址:https://huggingface.co/openai/gpt-oss-120b
  • 博客地址:https://openai.com/index/introducing-gpt-oss/

Sam Altman 声称,gpt-oss 性能与 o4-mini 水平相当,并且可以在高端笔记本电脑上运行(WTF!!)(还有一个较小的可以在手机上运行)。

图片

两款开源模型与 o3、o4-mini 的跑分结果比较如下:

图片

总结一波,这两个开源模型的亮点包括:

  • 宽松的 Apache 2.0 许可证:自由构建,不受版权限制或专利风险 - 非常适合实验、定制和商业部署。
  • 可调整的推理力度:根据具体用例和延迟需求轻松调整推理力度(低、中、高)。
  • 完整的思维链(CoT):完全可访问模型的推理过程,从而更轻松地进行调试并增强对输出的信任。不计划向终端用户展示。
  • 可微调:通过参数微调,完全可根据特定用例定制模型。
  • Agentic 功能:使用模型的功能进行函数调用、网页浏览、Python 代码执行和结构化输出。
  • 原生 MXFP4 量化:模型使用原生 MXFP4 精度针对 MoE 层进行训练,使得 gpt-oss-120b 可在单个 H100 GPU 上运行,gpt-oss-20b 模型可在 16GB 内存内运行。

OpenAI 还做了一个 playground ,让开发者可以在网页端简单尝试这两个开源模型,感兴趣的读者可以去体验尝试。

图片

试用地址:https://www.gpt-oss.com/

在过去的几个小时,海外 AI 社区已经炸开了,纷纷开始下载尝试新模型,以至于 Hugging Face 的 CTO 只能在线请求大家不要全都去下载,服务器要崩了!

图片

接下来,就让我看看下这两个最新开源模型的技术细节。

开源模型新高度

作为两个 SOTA 级别的开源语言模型,gpt-oss-120b 和 gpt-oss-20b 可以提供强大的实际应用性能,并具有低成本优势。

两款模型在推理任务上超越了同等规模的开源模型,展示了强大的工具使用能力,并且经过优化,能够高效部署在消费级硬件上。训练过程中结合了强化学习以及受 OpenAI 内部最先进模型启发的技术,包括 o3 和其他前沿模型。

其中,gpt-oss-120b 模型在核心推理基准测试上与 o4-mini 几乎持平,同时能够在单个 80GB GPU 上高效运行。gpt-oss-20b 模型在常见基准测试中表现与 o3-mini 相似,且仅需 16GB 内存即可运行,适用于边缘设备,非常适合本地推理、设备端使用或在没有高昂基础设施的情况下快速迭代。

两款模型在工具使用、few-shot 函数调用、CoT 推理以及 HealthBench 测试中表现非常出色,甚至超越了 o1 和 GPT-4o 等专有模型。

两款模型还具有非常强的系统兼容性,适用于需要卓越指令跟随、工具使用(如网页搜索或 Python 代码执行)和推理能力的智能体工作流中,并且能够根据任务的复杂性来调整推理力度,从而适应不需要复杂推理和 / 或针对非常低延迟最终输出的任务。两款模型完全可定制,提供完整的 CoT,并支持结构化输出。

当然,安全性是 OpenAI 发布所有模型的基础,尤其对开源模型至关重要。因此,除了全面的安全训练和评估测试外,OpenAI 还基于自身的准备框架(Preparedness Framework)测试了 gpt-oss-120b 的对抗性微调版本,引入了额外的评估层。从结果来看,gpt-oss 模型在内部安全基准测试中的表现与 OpenAI 的前沿模型相当,并提供与其近期专有模型相同的安全标准。

OpenAI 已经与 AI Sweden、Orange 和 Snowflake 等早期合作伙伴合作,了解两款开源模型在现实应用中的情况,包括将它们托管在本地以确保数据安全,以及在专业数据集上进行微调。

预训练与模型架构

gpt-oss 模型采用了 OpenAI 最先进的预训练和后训练技术,尤其关注推理、效率和在各种部署环境中的现实可用性。

两款模型均采用 Transformer 架构,并利用专家混合(MoE)来减少处理输入所需的活跃参数数量。其中,gpt-oss-120b 每个 token 激活 5.1B 参数,而 gpt-oss-20b 则激活 3.6B 参数。两款模型的总参数分别为 117B 和 21B。

此外,两款模型采用交替密集和局部带状稀疏注意力模式,类似于 GPT-3。为了提高推理和内存效率,模型还使用了分组多查询注意力,组大小为 8。同时利用旋转位置编码(RoPE)进行位置编码,并原生支持最长 128k 的上下文长度。

图片

在训练集上,OpenAI 在一个主要是英文的文本数据集上训练了两款模型,重点关注 STEM、编程和常识类内容,并使用一个比 o4-mini 和 GPT‑4o 所使用更为广泛的分词器(tokenizer)对数据进行分词 ——o200k_harmony,同样也将其开源。

后训练

OpenAI 声称开源模型采用了与 o4-mini 相似的后训练流程,包含监督微调和高计算强化学习阶段。此外,OpenAI 还训练模型在输出答案前先进行思维链推理和工具调用。通过采用与 OpenAI 专有推理模型相同的技术,这些模型在后训练后展现出卓越的能力。

与 API 中的 OpenAI o 系列推理模型类似,这两款开源模型支持「低、中、高」三档推理强度调节,开发者只需在系统消息中添加一行指令即可轻松设置,实现延迟与性能的平衡。

性能评估

OpenAI 在标准学术基准上对比测试了 GPT-OSS-120B/20B 与 o3、o3-mini 及 o4-mini 等 OpenAI 推理模型,涵盖编程、竞赛数学、医疗和智能体工具使用等维度:

一系列测试结果表明,GPT-OSS-120B 在编程竞赛(Codeforces)、综合问题解答(MMLU 和 HLE)及工具调用(TauBench)方面超越 o3-mini,达到甚至超过 o4-mini 水平。

在医疗查询(HealthBench)和竞赛数学(AIME 2024&2025)领域表现更优于 O4-mini。尽管体积小巧,GPT-OSS-20B 在这些测试中仍与 o3-mini 持平甚至超越,尤其在竞赛数学和医疗领域表现更为突出。

图片

CodeforcesCompetition 编程基准

图片

人类最后考试 —— 跨学科的专家级问题

图片

HealthBench 基准测试

图片

AIME 2024 和 AIME 2025 基准(使用工具)

图片

GPQA Diamond(不使用工具)和 MMLU 基准

图片

AIME 数学竞赛

图片

GPQA Diamond(使用工具)博士级别科学问题

完整评估结果如下表所示:

图片

思维链

OpenAI 近期的研究表明,只要模型未经过直接监督对齐其思维链,监控推理模型的思维链过程有助于检测异常行为。这一观点也得到业内其他研究者的认同。

因此在 GPT-OSS 系列模型的训练中未对思维链施加任何直接监督。

OpenAI 认为,这对于监测模型异常行为、欺骗性输出及滥用风险至关重要。通过发布具备无监督思维链能力的开源模型,希望为开发者和研究人员提供研究及实现自有思维链监控系统的机会。

更多的模型细节和评估结果请参考模型卡(model card):

图片

模型卡地址:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

最后,在 GPT-5 迟迟未发布的情况下,你觉得 OpenAI 能否凭这两个开源模型挽尊呢?与国内开源模型比谁更香?欢迎已经用上的读者们讨论。

.....

#Claude Opus 4.1

就是阻击OpenAI,Claude抢先数十分钟发布

你会掏钱吗?

你说巧不巧,就在 Sam Altman 官宣两个开源推理模型之前的半个小时,却被 Anthropic 抢先一步,发布了新模型 Claude Opus 4.1。

以前只有 OpenAI 抢占别人家的风头,这次轮到 OpenAI「被截胡」了!历史总是充满戏剧性!

对比他们发推时间,算下来就是前后脚的功夫,不知是 Anthropic 提前得知了消息,还是刚巧赶上了,又或者是 Anthropic 以为 OpenAI 要发 GPT-5,提前放出模型,时间挨的那么近,应该不是巧合。大家觉得呢?

image.png

image.png

总之,国外这几家公司上新模型,基本都在按照这个循环进行。

image.png

Claude Opus 4.1 登场

最新 Claude Opus 4.1 模型,基于 Claude Opus 4 构建,后者在今年 5 月末发布。可以看出 Anthropic 模型迭代速度还是非常快的。Claude Opus 4.1 主要在智能体任务、真实世界编程和推理能力上有了大幅提升,具有 200K 上下文窗口。

对于商业用户和个人用户而言,Claude Opus 4.1 已面向 Claude Pro、Max、Team 和 Enterprise(企业)用户开放使用。

对于开发者而言,Claude Opus 4.1 可通过以下平台使用:

Anthropic API

Amazon Bedrock

Google Cloud 的 Vertex AI

此外,Claude Opus 4.1 也已集成至 Claude Code 中。

在 API 价格方面,Claude Opus 4.1 的定价为:

  • 每百万输入 token  15 美元
  • 每百万输出 token 75 美元

如果启用提示缓存(prompt caching),最多可节省 90% 的成本;使用批处理可节省多达 50% 的成本。

image.png

定价:https://www.anthropic.com/pricing#api

在性能方面,Opus 4.1 在 SWE-bench Verified 基准上达到 74.5%,此外,该模型还在深度研究和数据分析等方面有所提升,尤其是在细节追踪和智能体搜索方面。

image.png

根据 GitHub 评估,Claude Opus 4.1 在大多数能力上相较于 Opus 4 都有所提升,尤其在多文件代码重构方面表现出显著进步。

企业用户方面,Rakuten Group 发现,Opus 4.1 在处理大型代码库时,能够精准定位需要修改的部分,且不会做出不必要的更改或引入新的 bug。这种精确性让他们的团队更愿意在日常调试任务中使用它。

还有企业用户称,在他们的初级开发者评估基准测试中,Opus 4.1 相比 Opus 4 提升幅度很大,其性能飞跃大致相当于 Sonnet 3.7 升级至 Sonnet 4 的提升幅度。

image.png

Anthropic 建议所有用户将 Opus 4 升级至 Opus 4.1。在 API 中,开发者只需使用 claude-opus-4-1-20250805 即可接入新版模型。 

使用场景

Claude Opus 4.1 提供了混合推理模式,既可以实现即时响应,也可以展示推理过程。API 用户还可对思维预算进行精细控制,以实现成本与性能的最优平衡。

其典型应用场景包括但不限于:

高级编程能力:Claude Opus 4.1 在 SWE-bench 基准上处于领先地位,能够完成耗时数日的工程任务,并在成千上万步操作中提供连贯且具备上下文感知的解决方案。得益于更优的代码品味与 32K 的输出 token 支持,它可以灵活适应特定的编程风格,在大规模代码生成与重构项目中展现出卓越的质量表现。

智能体搜索与研究:Claude Opus 4.1 能够高效地检索外部和内部数据源,在复杂的信息环境中综合出全面的洞见。凭借其在智能体搜索任务中的强大表现,它可以进行长达数小时的自主研究 —— 同时分析包括专利数据库、学术论文和市场报告在内的多种资料,为决策提供战略性洞察。

最后,随着新模型的发布,Anthropic 还发布了系统卡,感兴趣的读者,可以前去阅读。

image.png

地址:https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf

大家也是期待新模型可以解决屎山问题。

image.png

不过,面对高昂的订阅费,大家也是吐槽:太贵,买不起。

图片

「太吃token了。」

图片

对了,在谷歌攒的 AI 国际象棋比赛第一天,Claude Opus 4 败给了 Gemini 2.5 Pro,不知 Claude Opus 4.1 要是参战的话,结局会不会改写。

.....

#Genie 3

震撼,世界模型第一次超真实地模拟了真实世界:谷歌,昨晚抢了OpenAI风头

昨晚十点,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式来到了第 3 代。

「Genie 3 是我们突破性的世界模型,可以通过单个文本提示词创建交互式、可玩的环境。从照片般逼真的风景到奇幻的境界,可能性无穷无尽。」

图片

据介绍,在 Genie 3 生成的动态世界中,玩家可以每秒 24 帧的速度实时导航,在 720p 分辨率下保持几分钟的一致性。

,时长02:22

相比于前一代 Genie 2 世界模型、使用扩散模型的游戏生成引擎 GameNGen 以及视频生成模型 Veo,最新的 Genie 3 在多个特性上都具有明显优势。

图片

比如,相比 Genie 2,最新一代 Genie 实现了分辨率的显著提升,达到了实际可用的程度,同时还支持使用提示词生成世界事件,并能维持数分钟的一致性(DeepMind 将其称为「交互视界」)。更重要的是,Genie 3 还能做到实时响应。

,时长00:49

而相比于专用于游戏生成的 GameNGen,Genie 3 更加通用,同时在分辨率等其它指标上都远远胜之。

最后与 Veo 3 对比,虽然 Genie 3 在分辨率这一点上还有不足,但在其它方面却优势明显。

Genie 3 一宣布就激起夸声一片。

图片

Genie 3 团队的 Matt McGill 分享的「低头看鞋子……看模型是否理解水坑是什么」的视频更是引发了一片热议——其真实感超乎想象。

,时长00:30

一时间,风头甚至盖过了近段时间来备受期待的 OpenAI 开源模型。

下面,我们来看看 Genie 3 生成的一些具体能力和案例。

Genie 3 的能力

作为最新前沿的世界模型,Genie 3 具备构建一个完整世界的全部能力,并且能够在较长时间范围内保证生成的世界连贯且可交互,其功能包括:

  • 模拟世界的物理属性:展现自然现象如水与闪电,以及复杂的环境交互。
  • 模拟自然世界:生成充满活力的生态系统,从动物行为到复杂的植物生命。
  • 建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色。
  • 建模不同地点和历史背景:超越地理和时间的界限,探索各地和历史场景。

,时长00:51

Prompt: Walking on a pavement in Florida next to a two-lane road from one side and the seaon the other, during an approaching hurricane, with strong wind and waves splashing over theroad. There is a railing on the left of the agent, separating them from the sea. The road goesalong the coast, with a short bridge visible in front of the agent. Waves are splashing over therailing and onto the road one after another. Palm trees are bending in the wind. There is heavyrain, and the agent is wearing a rain coat. Real world, first-person.

提示词:在佛罗里达州的人行道上行走,一边是双向车道,另一边是海洋,正值即将来临的飓风,强风和波浪拍打着路面。agent 的左侧有一道栏杆,将其与海洋隔开。道路沿着海岸线延伸,agent 波浪接连不断地拍打着栏杆,涌上路面。棕树在风中弯曲。大雨倾盆,agent 前方可见一座短桥。agent 穿着雨衣。真实世界,第一人称。

,时长00:59

Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep oceacanyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.

提示词真实世界的追踪镜头,在深邃昏暗的海洋中穿梭,穿过深海的峡谷,密集的大群水母在游动,生物发光照明。

,时长00:51

Prompt: Being a lizard, origami style

提示词:你是一只蜥蜴,折纸风格

,时长00:59

Prompt: Venice by Vaporetto. The canals of Venice are recreated with painstaking detall. Thewater has realistic reflections and wakes, The buildings show crumbling plaster and centuriesof weathering. The scene is populated with other gondolas, water taxis, and barges.

提示词威尼斯的汽船。威尼斯的运河以精心细致的细节重新创造。水面有逼真的反射和波纹。建筑物显示出剥落的灰泥和数百年的风化。场景中还有其他贡多拉船、水上出租车和驳船。

实时响应和长时间一致性

这一次 Genie 3 的进化最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景(三维)一致性。

为了实现 Genie 3 在可控性和实时交互性方面的高水平表现,谷歌在技术上取得了一系列的重大突破。

在每一帧的自回归生成过程中,模型需要持续考虑随着时间增长的轨迹信息。例如,当用户在一分钟后再次回到某个地点时,模型必须能够回溯并引用一分钟前生成的相关信息。

而要实现真正的实时交互,这种计算必须每秒多次完成,以便及时响应不断到来的用户输入。

为了让 AI 生成的世界更具有沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频在技术上要困难得多,因为误差往往会随时间逐步累积。

尽管面临这一挑战,Genie 3 所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。

图片

建筑物左侧的树木在整个交互过程中保持一致,即使它们进出视野也是如此。

虽作为世界模型,Genie 3 本质上仍是一个二维的图像 / 视频生成模型,与直接的三维场景生成具有显著的区别。

简单来说,Genie 3 的一致性是一种「涌现能力(emergent capability)」,能够生成更加丰富,动态,变化的世界,因为世界是基于世界描述和用户动作逐帧生成的。

而其他基于三维模型的方法,如 NeRF 和 Gaussian Splatting,同样可以生成具有一致性的可导航三维环境,但它们依赖于三维表示作为输入,显著限制了场景的丰富性。

可用提示词生成世界事件

除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互形式,DeepMind 称之为可提示的世界事件(promptable world events)。

可提示的世界事件能够改变已经生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。

这种能力也能增加反事实(counterfactual)的广度,即能让玩家更自由畅想「如果这样会怎样」的场景。这些场景可以被 agent 根据学习过的经验来处理意外情况。

局限性

虽然 Genie 3 堪称前所未有的世界模型,但局限性依然存在,具体包括:

  • 动作空间有限。尽管可提示的世界事件允许进行广泛的环境干预,但这些干预不一定由 agent 自身执行。agent 可以直接执行的动作范围目前受到限制。
  • 其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互仍然很难。
  • 真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。
  • 文本渲染。通常只有在输入的世界描述中提供时,才能生成清晰易读的文本。
  • 交互时间有限。目前 Genie 3 支持几分钟的连续交互,而非数小时。

未来值得期待

谷歌 DeepMind 也在博客中透露了他们对于 Genie 3 以及在世界模型这个研究方向上的未来计划。

他们表示:「我们相信 Genie 3 是世界模型的重要时刻,它将开始对 AI 研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在未来让更多测试者使用 Genie 3。」

他们预计 Genie 3 将为教育和培训创造新的机会,帮助学生学习和专家积累经验。比如,Genie 3 可以让你探索古希腊的街道:

,时长00:47

它不仅能提供广阔的空间来训练机器人和自主系统等智能体,还能使评估智能体性能、探索其弱点成为可能。

比如在下面的视频中,为了探索智能体训练的潜力,DeepMind 将 SIMA 智能体置于 Genie 3 世界中,并设定了目标。智能体会采取行动,Genie 3 能在不知道目标的情况下模拟该世界中的响应。这对于构建更强大的xx智能体至关重要。

,时长00:16

从 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副总裁、深度学习领导者 Oriol Vinyals 说的「神经视频游戏」,已经实现了令人难以置信的进化。

图片

或许未来,谷歌真的能造出《星际迷航》中的全息甲板!

图片

DeepMind CEO、诺奖得主 Demis Hassabis 的推文

图片

对于 Genie 3 世界模型,你有什么看法?

参考链接

​https://x.com/GoogleDeepMind/status/1952732150928724043​

​https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/​

.....

#大模型究竟是个啥?都有哪些技术领域

很多刚入门大模型的小伙伴往往一头雾水,不知道大模型是个啥?什么LLM、VLM、MLLM、推理大模型,这些名词熟悉又陌生,今天星球内部的这篇文章就从大白话的角度给大家讲解一下~

大语言模型(LLM)

定义

大语言模型(Large Language Model,LLM)是基于海量文本数据训练的深度学习模型,其核心能力在于理解并生成自然语言文本。这类模型通过在大规模数据集上进行预训练,学习语言的统计规律、语义关联以及世界知识,从而能够完成各种语言相关任务。LLM与传统NLP模型的关键区别在于其规模——参数量通常达到数十亿甚至数千亿级别,训练数据量可达TB级别,这使得它们展现出强大的泛化能力上下文理解能力

现代LLM的核心特征包括:大规模参数(如GPT-3有1750亿参数)、Transformer架构(基于自注意力机制)、预训练+后训练范式(先在广泛数据上预训练,再针对特定任务进行监督微调或强化学习)以及多任务适应性(一个模型可执行多种语言任务)。这些特征使LLM能够处理从简单拼写检查到复杂对话生成等广泛任务,并在金融、医疗、教育等多个领域得到应用。

LLM的核心能力包括"理解"和"生成"两个方面。理解能力指模型能够解析输入文本的含义、情感和意图;生成能力则是指模型可以根据输入创造出连贯、合乎逻辑的新文本。这种能力不仅限于普通文本,还包括代码、表格甚至音乐等结构化内容的生成。LLM的技术基础是Transformer神经网络架构,特别是其中的自注意力机制(Self-Attention Mechanism),这使得模型能够同时关注输入文本中的所有词语,根据重要性赋予不同权重,有效捕捉长距离的语义关联。

LLM发展历程​

主流架构

基础架构:Transformer

Transformer架构是LLM的核心技术基础,由Google研究人员于2017年提出。传统Transformer模型由两个主要组件构成:Encoder(编码器)和Decoder(解码器)。Encoder负责处理输入序列,通过自注意力机制建立全序列的上下文表征;Decoder则在生成输出时使用,包含额外的交叉注意力层来关注Encoder的输出。这种架构最初是为机器翻译等序列到序列任务设计的,需要完整的编码-解码流程。

Transformer的关键创新是自注意力机制,它允许模型在处理一个词语时同时关注输入文本中的所有其他词语,根据重要性分配不同权重。这种机制解决了传统循环神经网络(RNN)难以捕捉长距离依赖的问题,同时具备良好的并行计算能力,可以利用GPU等硬件进行高效训练。自注意力机制通过将每个词的嵌入表示映射成查询向量(Query)、键向量(Key)和值向量(Value),计算相关性分数后对值向量进行加权求和,得到词语的新表示。​

Encoder-only架构

Encoder-only架构仅保留Transformer的编码器部分,典型代表是谷歌的BERT模型。这类架构的特点是通过双向上下文建模,能够同时考虑词语左右两侧的上下文信息,非常适合文本理解任务。在训练时,Encoder-only模型通常采用掩码语言模型(Masked Language Model, MLM)目标,即随机掩盖部分输入词语,让模型预测被掩盖的内容。

Encoder-only架构的优势在于对文本的深度理解能力,特别适合分类、问答等需要全面把握文本语义的任务。然而,由于缺乏解码器结构,这类模型不适合直接用于文本生成任务。在实际应用中,BERT等Encoder-only模型通常需要额外添加任务特定的输出层来完成下游任务。​

Decoder-only架构

Decoder-only架构是现代LLM的主流选择,如GPT系列、Llama系列等。这类架构仅使用Transformer的解码器部分,但实际实现中往往采用与编码器相似的结构模块。关键区别在于Decoder-only模型采用自回归生成机制,通过掩码自注意力(masked self-attention)确保每个位置只能关注之前的token,防止信息从未来时间步泄露到当前预测。

Decoder-only架构的优势在于高效的单向建模能力,特别适合文本生成任务。在实现上,这类模型通常会共享编码和解码过程的权重矩阵,简化设计并提高计算效率。值得注意的是,虽然称为"Decoder-only",但实际实现可能使用与Encoder相似的模块,因为核心计算单元在两种架构中高度相似。这种架构选择反映了深度学习领域模块化设计的趋势,通过基础组件的复用和组合创造出适应不同需求的高效模型结构。​

LLM的核心能力

1. 文本生成与创作LLM能够根据提示生成连贯、上下文相关的文本,包括文章写作、诗歌创作、故事编撰等。例如,GPT-4可以生成技术文档或营销文案,而Claude 4在复杂工程文档生成方面表现突出,其代码注释完整度比GPT-4.1高42%。

2. 代码生成与辅助编程现代LLM已成为开发者的强大助手。Claude 4 Opus在SWE-bench Verified测试中得分80.2%,能独立完成含碰撞检测的Tetris游戏开发;Qwen2.5-Max在中文Spring Boot+MyBatis场景中生成的DAO层代码采纳率达82%。Code Llama 70B作为开源标杆,被70%高校用于教学。

3. 知识问答与推理LLM能够回答事实性问题并进行多步推理。Gemini 2.5 Pro凭借200万token上下文窗口,在实时数据分析中表现优异;而DeepSeek-R1在金融风险预测中准确率提升45%。不过,最新研究显示,即使是GPT-4o在主动推理(如侦探案件分析)任务中也仅达35%准确率,显著低于人类水平。

4. 文本理解与转换包括文本摘要、翻译、情感分析等。例如,开源模型如Llama 3.1 8B在德语医疗文本结构化(如ICD-10编码)任务中准确率达89.3%。

5. 多模态处理前沿模型如Gemini 2.5 Pro已支持文本、图像、视频的多模态输入输出,拓展了应用场景。

值得注意的是,LLM在不同任务中的表现差异显著。7-12B参数模型(如Llama 3.1 8B、Mistral 7B)在结构化信息提取任务中表现出最佳平衡,准确率达90%,而复杂推理任务则需要更大模型或专门优化(如Claude 4的混合推理模式)。​

代表性工作

GPT系列

GPT(Generative Pre-trained Transformer)系列由OpenAI开发,是推动大语言模型发展的关键力量。该系列模型以强大的通用能力和持续的创新著称:

  • GPT-3(2020):首个展示出强大few-shot学习能力的模型,拥有1750亿参数,确立了"预训练+提示"的新范式。
  • GPT-4(2023):在多模态理解和复杂推理上有显著提升,但架构细节未完全公开。
  • GPT-4o(2024):优化版本,提升了响应速度和多模态能力。
  • GPT-5(2025年8月即将发布):据传将具备2000万token的上下文窗口,在推理能力和多工具整合上有重大突破,可能合并文本、代码、浏览和视频生成等功能于单一模型。

GPT系列的特点是闭源但提供API服务,模型规模通常大于同期开源模型,在基准测试中长期保持领先。例如,GPT-4在发布时几乎在所有公开基准上都创下了新纪录。不过,随着开源模型的进步,这种差距正在缩小。​

Llama系列

Llama(Large Language Model Meta AI)系列由Meta(原Facebook)开发,是目前极具影响力的开源大语言模型家族。从Llama 1到最新的Llama 4,Meta持续推动着开源模型的发展:

  • Llama 2(2023):首个可免费商用的开源大模型,参数规模达70B,成为许多后续工作的基础。
  • Llama 3(2024):引入多模态能力,在单语言和多语言任务上均有显著提升。
  • Llama 4(2025):Meta迄今最先进的模型,首次采用MoE架构,包含三个版本:
  • Scout:专注于文档摘要与代码推理,支持1000万token上下文窗口
  • Maverick:强调多模态能力,支持视觉和语音输入
  • Behemoth:预览中的超大规模模型,总参数达2万亿

Llama 4的一个关键创新是"早期融合"多模态设计,能够使用未标记的文本、图像和视频数据进行联合预训练。其视觉编码器也经过特别优化,在多项图理解和视频理解任务中表现领先。Meta的开源策略极大促进了AI社区的发展,基于Llama系列构建的应用和衍生模型数量庞大,形成了一个活跃的生态系统。​

Qwen系列

Qwen(通义千问)系列由阿里巴巴开发,是中国最具影响力的开源大语言模型之一。该系列以全面开源多模态能力为特色:

  • Qwen 1.5:基础语言模型系列,包含从0.5B到72B不同规模的版本
  • Qwen 2.5-Omni:端到端全模态大模型,曾登上Hugging Face榜单总榜榜首
  • Qwen 3:在数学和代码能力上有显著提升的版本

截至2025年,阿里巴巴已向全球开源200多款模型,Qwen衍生模型数量突破10万,超越Llama系列成为全球最大的开源模型族群。Qwen系列特别强调对中文和多语言任务的支持,在保持开源的同时,性能上也能与同期商业模型竞争。​

DeepSeek系列

DeepSeek系列由深度求索公司开发,以其创新的架构设计高效推理著称。该系列模型虽然发布时间较晚,但凭借技术突破迅速获得了广泛关注:

  • DeepSeek-V2:引入了多头潜在注意力(MLA)架构,在保持性能的同时优化了KV缓存效率
  • DeepSeek-V3(2024年12月):采用MoE架构,总参数6710亿但每次推理仅激活370亿,计算效率极高
  • DeepSeek-R1(2025年1月):基于V3架构的推理优化版本,在多项基准上表现优异​

其他值得关注的模型

  • Claude 4:Anthropic的旗舰模型,SWE-bench得分80.2%,支持7小时连续工作,适合复杂工程。
  • Gemini 2.5 Pro:谷歌的多模态模型,200万token上下文+250 TPS推理速度,适合实时分析。
  • OLMo 2:以透明性著称,提供完整训练数据和代码,是研究LLM原理的"蓝图"。
  • KAT-V1:快手开源的"自动思考"模型,能根据任务复杂度切换思考模式,40B版本接近DeepSeek-R1性能。
  • Kimi K2:月之暗面最新开源的LLM,具备更强代码能力、更擅长通用Agent任务的MoE架构基础模型,总参数1T,激活参数32B。

在讲视觉语言模型和多模态大模型之前,我们得先聊聊视觉基础模型,它是大模型处理视觉输入的关键模块,有了视觉基础模型,我们才可以把视觉和大模型连接起来

视觉基础模型

视觉基础模型(Vision Foundation Models)是指通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型。这类模型通常具有以下特征:

  1. 大规模预训练:在数百万甚至数十亿级图像或图文对上训练,学习广泛的视觉特征。
  2. 架构通用性:支持多种下游任务(如分类、检测、生成等),无需从头训练。
  3. 强泛化能力:通过提示(Prompt)、微调(Fine-tuning)等方式适配新场景。

与传统视觉模型相比,视觉基础模型的核心优势在于其“基础性”——既能直接处理具体任务,也能作为其他模型的底层支撑。​

主流架构

1. 视觉Transformer(ViT)

Transformer架构最初用于自然语言处理(如BERT、GPT),后被引入视觉领域。其核心是将图像分块(Patch)转换为序列,通过自注意力机制建模全局关系。

  • 关键技术
  • 图像分块编码:将图像分割为16×16或32×32的块,线性映射为向量序列。
  • 位置编码:添加可学习的位置嵌入(Position Embedding)保留空间信息。
  • 多头注意力:并行计算不同子空间的注意力,捕捉局部与全局特征。
  • 代表模型:ViT(Vision Transformer)、DeiT(数据高效型ViT)、Swin Transformer(引入层次化窗口注意力)。​

2. 卷积神经网络(CNN)与Transformer混合架构

为兼顾局部纹理与全局语义,部分模型融合了CNN的归纳偏置和Transformer的灵活性。例如:

  • ConvNeXt:用卷积模拟Transformer的层级设计,实现高效长程建模。
  • MobileViT:在轻量级CNN中嵌入Transformer块,平衡计算成本与性能。​

核心任务与应用

1. 图像分类与识别

  • 任务目标:预测图像类别或内容描述。
  • 典型应用:ViT通过纯注意力机制实现分类,在ImageNet上达到超过CNN的准确率;CLIP通过对比学习实现零样本分类(无需训练数据)。​

2. 跨模态理解(视觉-语言)

  • 任务目标:关联图像与文本语义。
  • 代表模型
  • CLIP:通过对比学习对齐图文特征,支持零样本检索、分类。
  • BLIP-2:结合视觉编码器与大语言模型(LLM),实现视觉问答、描述生成。​

3. 目标检测与定位

  • 任务目标:识别物体位置并标注类别。
  • 模型特点
  • GroundingDINO:结合预训练DINO检测模型与文本 grounding,实现开放词汇检测(检测训练未见的类别)。
  • GLIP:将检测任务建模为图文匹配问题,统一检测与语言理解。​

4. 图像分割

  • 任务目标:按语义或实例划分像素区域。
  • 代表工作
  • MaskFormer:将分割任务转换为掩码分类问题,统一语义分割与实例分割。
  • SAM(Segment Anything Model):基于提示(点、框、文本)分割任意对象,支持零样本迁移。​

5. 图像生成与编辑

  • 任务目标:根据文本或条件输入生成/修改图像。
  • 关键技术
  • Stable Diffusion:潜在扩散模型(Latent Diffusion),在低维空间去噪以降低计算成本。
  • ControlNet:通过额外条件(如边缘图、深度图)控制生成过程。

语音大模型

语音大模型是指在人工智能领域中,经过大规模语音数据预训练,具备处理多种语音相关任务能力的大型神经网络模型。它能够从海量语音数据中学习语音的统计规律、语义信息以及不同语言的发音特征,实现对语音信号的深度理解与生成。与传统的专一任务语音模型不同,语音大模型通常参数规模庞大,训练数据量达到百亿甚至万亿级别,并且具备跨任务泛化能力,无需针对特定任务进行大量微调即可实现较好的性能。​

主流架构

语音大模型的架构发展与语言大模型类似,目前以 Transformer 架构为主。这种架构通过自注意力机制能够有效捕捉语音序列中的长距离依赖关系,适合处理语音这种时序性强的数据。在具体实现上,许多语音大模型采用序列到序列(Sequence-to-Sequence)的结构,包含编码器和解码器两部分。编码器负责将输入的语音信号转换为特征序列,通过多层 Transformer 块提取语音的上下文特征;解码器则基于编码器的输出,生成对应的文本或语音结果。例如,Whisper 模型就采用了这种架构,其编码器将语音的梅尔倒谱特征转换为特征序列,解码器通过自注意力和交叉注意力机制,结合编码器的输出生成目标文本。

此外,随着技术的发展,一些语音大模型还融入了混合专家(MoE)结构,通过多个专家网络分别处理不同的语音特征,再由路由机制选择合适的专家输出进行整合,在保证模型性能的同时提高计算效率。例如,AudioPALM 模型通过将文本和音频的 token 合并为一个多模态联合词汇表,结合 Transformer 架构实现了语音与文本的混合任务处理。​

适用任务

  • 语音识别(Speech-to-text):将语音信号准确转换为文本,支持多种语言和方言,包括处理背景噪声、口音等复杂情况。
  • 语音翻译(Speech-to-text translation):直接将一种语言的语音转换为另一种语言的文本,无需先转换为源语言文本再翻译。
  • 语音到语音翻译(Speech-to-speech translation):将一种语言的语音直接翻译为另一种语言的语音,保留说话人的语气和情感特征。
  • 文本到语音合成(Text-to-speech):根据输入的文本生成自然、流畅的语音,可调整发音、语速、语调等参数。
  • 音频分析:对音频中的声音、音乐等进行识别和分析,如判断音频中是否包含特定声音(如鸟鸣、汽车鸣笛)、识别音乐的风格和节奏等。
  • 语音增强与编辑:去除语音中的噪声、分离目标说话人的声音、修复音频中的缺失部分等。​

代表性工作

  • Whisper:由 OpenAI 提出的多任务语音大模型,能够执行英文语音转写、任意语言语音翻译为英文文本、非英文语音转写等任务。它在 680k 小时的多任务训练数据上进行训练,输入为语音的梅尔倒谱特征,通过 Transformer 的编码器 - 解码器结构实现序列到序列的学习。在解码器的输出序列前,会增加三个 Token 作为任务提示,指示模型执行特定任务,例如通过前缀确定是进行语音识别还是翻译。
  • AudioPALM:谷歌提出的文本语音大模型,将文本和音频的 token 合并为一个多模态联合词汇表,结合不同任务描述标记,实现了在任意语音和文本混合任务上训练的 decoder-only 模型。它支持语音识别、语音翻译、语音到语音翻译、文本到语音合成、机器翻译等多种任务,统一了传统上由异质模型解决的任务架构和训练流程。
  • Qwen2-Audio:阿里达摩院研发的音频语言模型,通过大幅扩展训练数据集(包括音频分析和语音聊天数据),并采用直接偏好优化(DPO)进一步对齐用户意图。它支持语音聊天(用户可直接用语音发出指令,无需经过自动语音识别模块)、音频分析(根据文本指令分析语音、声音、音乐等信息),并支持超过 8 种语言和方言,如中文、英语、粤语等。
  • MERaLiON-AudioLLM:专注于处理特定地域口音的语音模型,通过融合多种语音数据(包括文本阅读、多主题对话、交替多语言对话、模拟电话通话等)进行训练。它能够更好地理解和处理带有地域特色的口音,提高在特定场景下的语音识别和交互性能,在多语言语音处理任务中表现出色。

多模态大模型(MLLM)

多模态大模型是一种能够同时处理和理解文本、图像、语音、视频等多种模态信息,并实现跨模态交互与生成的人工智能模型。如果输入只有图像和文本,我们一般称作为视觉语言模型(Vision-Language-Model,一般也称作VLM)。它通过融合不同模态的特征,打破单一模态的局限,实现对复杂场景的全面认知。与单一模态模型相比,多模态大模型无需为每种模态单独设计模型,而是通过统一的框架学习不同模态间的内在关联,具备更强的泛化能力和任务适应性,能在多样化的实际场景中完成复杂任务。​

主流架构

多模态大模型的主流架构可概括为 “预训练模态编码器 + 可训练模态连接器 + 大语言模型 + 模态解码器” 的组合模式。 预训练模态编码器负责对不同模态的原始数据进行特征提取,比如视觉领域常用 CLIP、SigLIP 等模型作为图像编码器,音频领域则用 CLAP、ImageBind 处理语音或深度图等数据。这些编码器经过大规模单模态数据预训练,能高效提取模态的关键特征。 可训练模态连接器是实现跨模态对齐的核心,用于将不同模态的特征转换到同一语义空间。常见的连接方式包括基于特征融合的连接器(如 Flamingo 插入额外模块实现多模态交互)、基于可学习 Query 的连接器(如 BLIP-2 用 Q-Former 抽取多模态特征)、基于特征投影的连接器(如 LLaVA 用 MLP 将视觉特征投影到文本嵌入空间)等,通过这些方式让不同模态的信息能够被大语言模型理解。 大语言模型作为核心推理组件,负责处理文本指令和融合后的多模态特征,生成符合任务要求的输出。开源领域常用 Qwen、LLaMA 等系列模型,闭源模型则有 GPT-4o、Gemini 等,它们提供强大的语义理解和逻辑推理能力。 模态解码器则用于将模型输出的特征向量转换为具体的模态数据,比如将文本描述转换为图像(用 Stable Diffusion)或语音,实现跨模态生成。​

适用任务

多模态大模型的任务覆盖多模态理解与生成两大方向,具体包括:

  • 视觉问答:根据图像和文本问题,生成准确的答案,例如回答 “图中有几只猫”“这张图片展示的是什么场景” 等。
  • 图文生成:根据文本描述生成对应的图像,或为图像生成详细的文本说明,如根据 “一只坐在月亮上的兔子” 生成插画,或为街景图片生成包含建筑、行人等元素的描述。
  • 跨模态检索:根据一种模态的输入检索相关的其他模态内容,比如用文本 “红色的玫瑰花” 检索对应的图片,或用一段音乐检索相关的视频片段。
  • 视觉定位与分割:根据文本指令定位或分割图像中的特定区域,例如 “标记出图中戴帽子的人”“分割出画面中的小狗”。
  • 多模态对话:结合文本、图像、语音等进行多轮交互,比如用户发送一张美食图片并询问 “这道菜怎么做”,模型既能描述做法,又能生成步骤示意图。
  • 视频分析:理解视频内容,包括场景识别、动作分析、生成字幕等,例如分析一段体育比赛视频,识别运动项目并生成实时解说。​

代表性工作

  • LLaVA:以视觉指令微调和为核心的开源多模态模型,采用 “CLIP 视觉编码器 + MLP 连接器 + Vicuna 语言模型” 的架构。通过两阶段训练:先在 595K 图文描述数据上训练连接器,再用 158K 指令数据同时微调连接器和语言模型,实现了良好的视觉对话和指令遵循能力,能处理图像描述、视觉推理等任务。
  • Qwen2.5-VL:阿里达摩院推出的多模态模型,主打细粒度理解和长上下文处理。采用动态视觉编码,支持图像动态分辨率输入和视频帧采样,通过简洁的图文对齐方法(将空间临近的视觉 patch 组合后投影到文本空间)提升效率。在大规模预训练中融合图像标题、OCR 数据、视频和智能体数据,性能在 MMMU、MathVista 等多个基准测试中领先。
  • GPT-4o:OpenAI 推出的闭源多模态模型,支持图文、音视频的理解与生成。具备强大的跨模态推理能力,例如能根据图表数据进行数学计算,根据语音指令生成图像,或在视频中识别物体并预测动作趋势,在复杂任务中表现出接近人类的理解水平。
  • InternVL3:上海 AI 实验室与清华大学合作的模型,侧重高分辨率视觉感知和多模态对齐。通过扩大模型参数量和训练数据规模,在图像分类、目标检测、视觉问答等任务中表现优异,尤其在细粒度图像理解(如识别物体细节、纹理)上优势明显,支持多种开源语言模型作为底座。

推理大模型

推理大模型聚焦于大模型推理增强技术,即通过优化提示方式、引入外部知识或改进推理流程,提升大语言模型及多模态大模型在复杂任务中的推理能力、准确性和可控性的技术集合。它不依赖模型结构的根本性改动,而是通过外部策略或辅助工具,激活模型内在的上下文学习能力、逻辑推理能力,弥补模型在知识时效性、专业领域知识储备、复杂问题拆解等方面的不足,让模型更高效地完成问答、推理、决策等任务。我们现在看到的大多数主流大模型都具备推理能力,其表现形式就是以思维链的形式对我们的问题进行理解。​

主流架构

大模型推理增强的架构以 “基础模型 + 增强模块” 为核心,不改变原模型的主干结构,而是通过外挂模块或策略优化实现推理能力提升,主要包含以下关键组件:

  • 基础模型:即预训练完成的大语言模型(如 GPT 系列、LLaMA 系列)或多模态模型(如 LLaVA、Qwen-VL),负责核心的语义理解和生成功能。
  • 提示工程模块:通过设计优化的提示词或自动生成高质量提示,引导模型按预期逻辑输出,包括手工提示设计、自动提示优化(如 APE、OPRO)等。
  • 外部知识检索模块:包含知识库、检索器和重排序组件。知识库存储专业领域数据或实时信息;检索器(如向量数据库)根据问题匹配相关知识;重排序组件进一步筛选优质结果,确保输入模型的信息准确有效。
  • 推理链管理模块:用于拆解复杂问题,生成多步骤推理过程(如思维链 CoT),支持零样本、少样本推理,部分场景下还会引入逻辑校验机制(如自我反思、外部工具验证)。

这些模块通过轻量化接口与基础模型交互,形成 “输入处理 - 知识检索 - 推理生成 - 结果优化” 的闭环,在不增加模型参数量的前提下提升推理性能。​

核心技术方向

  • 提示工程:通过优化提示词激活模型能力。核心是让用户需求更清晰具体,例如使用 “逐步思考” 引导模型分解问题,或提供少量示例(少样本提示)让模型学习任务格式。自动提示优化技术(如 APE、OPRO)能让模型自主生成最优提示,通过对比不同提示的任务表现,筛选出效果最佳的指令。
  • 上下文学习:无需微调,仅通过输入示例让模型学会新任务。零样本学习直接用任务描述引导模型输出;少样本学习则在提示中加入输入 - 输出示例,帮助模型理解任务逻辑。多模态场景中,还可通过交错的图文示例(如 Flamingo 模型的训练数据),让模型学会跨模态任务推理。
  • 思维链与慢思考:针对复杂推理任务,让模型生成中间推理步骤。零样本思维链用 “Let's think step by step” 等提示激活推理能力;少样本思维链则通过示例展示推理过程。进阶技术如 Tree-of-Thoughts(树形推理)让模型探索多种推理路径,DeepSeek-R1 通过强化学习激励模型生成更长推理链(“慢思考”),在数学、代码等任务中显著提升准确率。
  • 检索增强生成(RAG):解决模型知识过时或专业知识不足的问题。流程包括:将外部知识(如文档、数据库)预处理为文本片段,通过嵌入模型转化为向量并构建索引;当用户提问时,检索器从知识库中匹配相关片段,与问题结合后输入模型,生成基于可靠知识的回答。多模态 RAG 还支持图像、音频等知识的检索,例如根据图片内容检索相关文本描述辅助问答。​

代表性工作

  • 自动提示优化(OPRO):通过大模型自主优化提示词的技术。其核心是设计 “优化器模型”,以任务表现为目标,对比不同提示的效果并迭代改进。例如在文本分类任务中,OPRO 会生成多个候选提示,通过模型在验证集上的分类准确率筛选最优提示,最终提升任务性能。
  • 思维链(CoT):让模型分步拆解问题的推理技术。少样本 CoT 在提示中加入带推理步骤的示例,例如 “已知 A=3,B=5,求 A+B?示例:步骤 1:A 是 3,B 是 5;步骤 2:3+5=8;答案:8”,引导模型模仿分步推理。零样本 CoT 仅用 “逐步思考” 等提示词,即可激活模型的逻辑分解能力,在数学题、逻辑推理题中效果显著。
  • DeepSeek-R1:聚焦 “慢思考” 的推理增强模型。通过强化学习(GRPO 算法)激励模型生成更长、更严谨的推理链,在训练中引入 “思考过程占位符”,要求模型将推理步骤与答案分离,并用准确率和格式规范作为奖励信号。该模型在数学(如 AIME 竞赛)、代码(如 Codeforces)等复杂任务中性能接近 OpenAI O1,展示了慢思考对推理能力的提升作用。
  • 检索增强生成(RAG):典型如 LangChain 框架,支持将文本、PDF 等知识源构建为向量数据库,通过检索器(如 FAISS)快速匹配相关知识。例如在医疗问答中,RAG 会检索专业医学文献片段,结合用户问题输入模型,生成基于权威知识的诊断建议,解决模型医学知识不足的问题。多模态 RAG(如 RA-VQA)还能将图像转换为文本描述后检索相关知识,提升视觉问答的准确性。

.....

#首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了

闹玩呢!

从目前战况来看,Grok 4 是夺冠热门。

在玩游戏方面,到底哪个模型最厉害?为了回答这个问题,谷歌近日发起了首届大模型国际象棋对抗赛。

这场比赛为期三天,参赛选手包括:  

  • o4-mini(OpenAI)
  • DeepSeek-R1(DeepSeek)
  • Kimi K2 Instruct(月之暗面)
  • o3(OpenAI)
  • Gemini 2.5 Pro(谷歌)
  • Claude Opus 4(Anthropic)
  • Grok 4(xAI)
  • Gemini 2.5 Flash(谷歌)

刚刚,我们拿到了第一轮比赛的结果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

以下是模型对阵图。

image.png

这个比赛是在一个名叫「Kaggle Game Arena」的平台上进行的。这是 Kaggle 公司的一个新项目,旨在跳出平时的基准测试框架,探索像 Gemini、DeepSeek 等 LLM 在动态和竞争环境中表现如何。

在昨天的报道中,我们详细描述了这场比赛的规则,比如不允许模型调用 Stockfish 等国际象棋引擎。(详情请参见《谷歌约战,DeepSeek、Kimi 都要上,首届大模型对抗赛明天开战》)

以下是对战的详细信息:

Kimi k2 对阵 o3:0-4

Kimi k2 与 o3 的对局较早结束,四局比赛都在八步棋内完成。由于 Kimi k2 连续四次未能找到合法着法而被判负,o3 获得了全胜。 

不过需要说明的是,与 o3 对战的 Kimi K2 Instruct 为非推理模型,打不过 o3 也在预料之中。

虽然 Kimi k2 未能获胜,但这场比赛也为我们提供了有价值的观察。从 Kimi k2 的走棋注释来看,它在开局阶段能够遵循棋谱理论行棋。然而,一旦脱离了熟悉的开局理论,技术问题就开始显现 —— 而对 Kimi k2 来说,这个转折点来得较早。

Kimi k2 遇到困难的具体原因还需要进一步分析。在某些时候,它能清楚看到棋子的位置,却似乎忘记了棋子的走法。

image.png

在这一次对局中,Kimi k2 完整识别了棋盘局势,却依然无法给出合法着法,似乎对棋子的走法规则出现了记忆混乱。

在其他对局中,它在局面识别上也存在一些技术问题。

image.png

凭借这场胜利,o3 顺利晋级半决赛,与 o4 mini 对战。 

DeepSeek R1 对阵 o4-mini:0-4

OpenAI 的 o4-mini 与 DeepSeek R1 之间的对局呈现出了独特的特点。如果单独观察每局比赛的前几步棋,你可能会以为这是两位高手在过招。然而对局进行到某个阶段后,棋局质量就会突然断崖式下跌。

image.png

这一现象在整场比赛中反复出现:几步不错的开局之后,会出现判断偏差和一系列失误。

尽管如此,o4-mini 在这场比赛中成功实现了两次将军 —— 这是一个值得注意的成就,考虑到对 AI 系统来说,准确把握整个棋盘状态本身就具有相当的挑战性。

Gemini 2.5 Pro 对阵 Claude 4 Opus:4-0

Gemini 2.5 Pro 与 Claude 4 Opus 的对局是本次比赛中唯一一个通过「将杀」获胜的场次多于因违规行棋告负的场次的比赛。不过,目前尚不清楚 Gemini 2.5 Pro 的真实棋力究竟如何,也不确定其胜利在多大程度上得益于 Claude 4 Opus 的失误表现。

这场比赛第四局出现了一个耐人寻味的局面:Gemini 2.5 Pro 当时拥有 32 分的子力优势,棋盘上甚至有两个后。然而尽管火力全开,它在完成将杀的过程中仍然出现了送子的情况。

image.png

但更值得分析的是本场比赛的第一局。前九个回合,双方 AI 都表现稳健,着法精妙。然而就在此时,执黑的 Claude 4 Opus 做出了一个草率的决定,走 10...g5。这步棋不仅白送一兵,还彻底破坏了己方王城的安全,直接加速了败局的到来。从双方 AI 的赛后评注中,我们可以看出一些端倪:

image.png

Grok 4 对阵 Gemini 2.5 Flash:4-0

今日表现最为亮眼的当属 Grok 4。除了以全胜战绩收获 4 分外,其棋艺水平也堪称目前最佳。虽然对手 Gemini 2.5 Flash 多次失误送子确实降低了比赛难度,但与其他 AI 不同的是,Grok 4 展现出了精准捕捉无保护棋子的能力,并能果断实施打击。

image.png

Grok 4 的出色表现甚至引起了科技界的关注,其创始人埃隆・马斯克在 X 平台简短互动时,再次提及他那个著名观点 ——「国际象棋太过简单」。

image.png

截至目前,大语言模型在象棋对弈中暴露出三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限,以及由此引发的合法着法执行问题。而 Grok 4 的出色表现证明,它似乎成功突破了这些限制。

这些 AI 模型的优势与缺陷能否在后续赛事中保持稳定?我们还要看明天的半决赛成绩。

文章中提及的棋局在线上国际象棋对弈网站 chess.com 中均有详细描述,感兴趣的读者可以参见以下链接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

国际象棋大师 Levy Rozman 也在最新录制的视频中对这场比赛进行了讲解。

,时长31:34

我们曾在昨天的报道中发起了一个投票,目前已有近 4000 位读者参与。从目前的数据看,大家此前最看好的是 Gemini 2.5 Pro—— 赢得了超过 37% 的票数。

e787b0757681e3abee0c74a781f0a6d.jpg

现在,第一天的比赛结果已经出炉,我们也稍微了解了各个模型的表现,不知道大家的想法有无变化呢?  

参考链接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

谁将成为最终赢家? 单选

Gemini 2.5 Pro(谷歌)

Grok 4(xAI)

o4-mini(OpenAI)

o3(OpenAI)

.....

#Towards Efficient Privacy-Preserving Machine Learning

北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向

本项目的领导者为李萌,于 2022 年加入北京大学人工智能研究院和集成电路学院创建高效安全计算实验室。他曾任职于美国 Facebook 公司的 Reality Lab,作为技术主管主导虚拟现实和增强现实设备中的高效 AI 算法和芯片研究。他的研究兴趣集中于高效、安全人工智能加速算法和芯片,旨在通过算法到芯片的跨层次协同设计和优化,为人工智能构建高能效、高可靠、高安全的算力基础,曾获 DAC 生成式人工智能系统设计竞赛第一名、AICAS 大模型系统设计竞赛第一名、CCF 集成电路 Early Career Award、欧洲设计自动化协会最佳博士论文等一系列奖项。

在数据隐私日益重要的 AI 时代,如何在保护用户数据的同时高效运行机器学习模型,成为了学术界和工业界共同关注的难题。

北大团队最新完成的综述《Towards Efficient Privacy-Preserving Machine Learning: A Systematic Review from Protocol, Model, and System Perspectives》系统性地梳理了当前隐私保护机器学习(PPML)领域的三大优化维度,首次提出跨协议、模型和系统三个层级的统一视角,为学术界和工业界提供了更加清晰的知识脉络与方向指引。

本文由北京大学助理教授李萌课题组和蚂蚁集团机构的多位研究者共同完成。论文题目及完整作者列表如下:

论文标题:Towards Efficient Privacy-Preserving Machine Learning: A Systematic Review from Protocol, Model, and System Perspectives

论文地址:https://arxiv.org/pdf/2507.14519

团队还建立了一个长期维护的 GitHub 项目,持续收录高质量 PPML 文献,欢迎大家 star,并提出宝贵的意见和补充:

  • 文献库:https://github.com/PKU-SEC-Lab/Awesome-PPML-Papers

文章的总体结构如下:

图片

层级一:协议层级优化

尽管密码学协议为数据隐私保护提供了严格的安全保证,但其应用于人工智能计算,仍面临巨大开销。本综述指出当前协议设计主要存在以下核心痛点:1)基于不经意传输(OT)的协议有极高的通信开销和基于同态加密(HE)的协议面临严重计算瓶颈;2)现有协议忽视模型固有的结构特性(如稀疏性、量化鲁棒性),因此缺乏 “模型感知” 的协议设计。

本综述分别从人工智能模型的线性算子和非线性算子切入,主要讨论了基于 OT 和 HE 的协议设计和发展脉络。综述中重点回答了在不同场景中,应该使用何种协议以及 HE 编码方式。综述还分析了在交互式和非交互式协议框架下的图级协议,比如秘密分享和 HE 之间的转换、全同态中的自举方案。以下是关于编码方案的总结:

图片

层级二:模型层级优化

图片

本综述强调在传统明文机器学习模型中的设计(如 ReLU 剪枝、模型量化)在 PPML 中往往会导致高昂代价。综述系统地归纳了当前 PPML 领域的四类模型层优化策略:1)线性层优化:比如高效卷积设计、低秩分解、线性层融合;2)非线性层 ReLU 和 GeLU 优化:比如多项式近似、剪枝和 GeLU 的替换;3)非线性层 Softmax 优化:比如昂贵算子的替换、KV cache 剪枝、注意力头融合;4)低精度量化,包括 OT 和 HE 友好的量化算法。下表概括了线性层和非线性层的优化方案:

图片

图片

图片

层级三:系统层级优化

本综述指出,即便协议和模型层级已经得到优化,系统层级若无法 “感知协议特性”,将难以释放真正性能。综述中梳理了两个方向的优化路径:1)编译器设计:从协议特性感知、灵活编码、Bootstrapping 支持等方面展开了讨论;2)GPU 设计:分别讨论了操作层面加速与 PPML 系统层面的优化,通过对比现有 GPU 加速实现中典型 PPML 工作负载的执行时间,对相关技术进行了总结。下图是 HE 编译器的梳理:

图片

下表对比了 GPU 加速的 HE 框架:

图片

总结与讨论

本综述强调,仅仅在某一层级优化已难以满足大模型时代对隐私与效率的双重要求。综述提出必须从 “跨层级协同优化” 的角度重新设计 PPML 的方案,未来的研究方向包括:1)协议 - 模型 - 系统协同优化和设计;2)构建面向大模型隐私推理的隐私计算方案;3)面向边缘设备部署的轻量化隐私计算方案。

值得一提的是,李萌老师课题组近年来围绕上述三个层面,也开展了一系列相关研究工作,欢迎各位相关领域老师、同学多多交流。下图总结了课题组已经发表的相关工作:

图片

本综述详细讨论了跨层级优化带来的挑战与机遇,分别阐述了模型和协议的系统优化、协议和系统的系统优化。例如模型量化难以直接给 PPML 带来期望的收益,非线性层优化难以带来系统级的效率提升,现代 GPU 加速了明文机器学习,但其有限的精度支持给 HE 所需的高精度模块化算术带来了挑战。

综述还进一步从线性层和非线性层角度讨论了大模型对 PPML 的独特挑战,并提出除了无需训练的优化方式,还可以考虑用参数高效微调(比如 LoRA)等技术去构建 PPML 友好的大模型结构。

.....

#Token成本下降,订阅费却飞涨

AI公司怎么了?

年初那会儿,DeepSeek 横空出世,AI 圈子跟过年一样热闹。它凭啥这么火?除了开源够意思,五百多万的训练成本也惊艳了不少人。 

在此之后,模型的训练成本越来越便宜,前阵子 Deep Cogito 甚至只花不到 350 万美刀,就搞出了一个(自称)能跟 o3 和 Claude 4 Opus 性能比肩的模型。 

这让不少创业公司觉得,商业模式清晰了:先用「每月 20 美元」这样的低价包月服务圈住用户,赌的就是未来模型成本会像摩尔定律一样降下来。

但这个看似完美的剧本,其实是一个注定会失败的陷阱。和一路走低的训练成本相反,AI 公司的运营成本,尤其是「推理」费用,正在坐着火箭往上窜。

这让 AI 公司面临两难抉择:「无限订阅」会亏死,「按量计费」会饿死。 TextQL 联合创始人兼 CEO 丁一帆(Ethan Ding)的一篇博客深度剖析了 AI 公司正在面临的此类「囚徒困境」,并给出了建议。 文章风趣幽默且深入浅出,非常值得一读。

  • 博客标题:tokens are getting more expensive
  • 博客链接:https://ethanding.substack.com/p/ai-subscriptions-get-short-squeezed

以下是文章的详细内容。

即便「语言模型未来会便宜 10 倍」的预测成真,也无法拯救 AI 订阅服务免于这场成本挤压。

image.png

想象一下你创办了一家公司。

你心里很清楚:消费者每月最多只愿意为产品支付 20 美元。没问题,你想,这正是经典的风投操作思路 —— 以成本价运营,牺牲利润换增长。CAC(获客成本)、LTV (生命周期价值)那套你也都算过了,一切在掌控之中。

但接下来的部分才真正有意思:你看过 a16z 那张图 —— LLM 成本每年会下降 10 倍。

image.png

图片来源:https://a16z.com/llmflation-llm-inference-cost/

于是你心想:现在用户月付 20 美元,我刚好打平;等到明年模型成本降价 10 倍,利润率一下冲到 90%,简直是稳赚不赔。

亏损只是暂时的,盈利是必然的。

这个逻辑简单到 连风投助理都能听懂:

  • 第一年:20 美元打平
  • 第二年:成本下降 10 倍 → 毛利率 90%
  • 第三年:去看游艇 🛥️

这套剧本也确实看起来合理:「LLM 推理成本每 6 个月下降 3 倍,我们撑一撑就好了。」

但现实是:18 个月过去了,毛利率几乎跌到历史最低点……

Windsurf 已经被拆卖回收了,Claude Code 这周也不得不取消原来的 200 美元 / 月无限使用计划。

公司们依旧在流血,模型确实变便宜了 ——GPT-3.5 的推理成本比原来低了 10 倍。可不知怎么的,利润不仅没变好,反而更糟了。

哪里不对劲?

没人想要过期的报纸

GPT-3.5 的确比以前便宜了 10 倍。但它现在的吸引力,就像 iPhone 发布会当天你掏出个翻盖手机 —— 谁还会想用?

每当一个新模型被发布并成为 SOTA(最先进技术),99% 的需求会立即转向它。用户已经默认了这种节奏,对他们来说,产品理应不断升级。

现在来看看现实中那些真正占据市场 99% 需求的前沿模型的定价历史 —— 你就会发现问题所在:

image.png

注意到什么了吗?

当 GPT-4 以每月 60 美元的价格发布时,大家还是一窝蜂上去了,哪怕前一代的 SOTA——GPT-3.5,便宜了整整 26 倍。当 Claude 3 Opus 以同样的价格上线时,人们同样纷纷迁移,尽管此时 GPT-4 已经降价了。是的,10 倍成本下降确实存在,但那通常适用于那些「就差没跑在 Commodore 64 上」的老模型。

这就是「成本会下降」战略的第一个幻觉支点:

用户只对「最强语言模型」有需求,仅此而已。

而「最强模型」的价格始终差不多,因为那正是当前推理边界(edge of inference)的真实成本。

你说:「这辆车现在便宜多了!」可你指的是一辆 1995 年的本田思域。当然,它确实便宜。但你想买的是 2025 年的丰田凯美瑞,厂商指导价仍是 3 万美元。

当你在使用 AI —— 不管是编程、写作、还是思考 —— 你天然会追求极致质量。没人会打开 Claude 然后说:「嗯,我今天不如用一下比较烂的版本,省点公司开销吧。」

我们是认知上的「贪婪动物」,只想要最强的大脑。尤其当我们在用自己的时间来做平衡的时候。

模型的资源消耗远超预期

你可能会说:「好吧,但这还在可控范围内,对吧?就算一直打平也没事嘛?」

天真的孩子。

确实,每一代前沿模型的 单个 token 成本并没有变贵,但有件事更糟糕的事情发生了:

它们吞掉的 token 数量,简直爆炸式增长。

以前你在 ChatGPT 里问一句话,它就回你一句。现在,「深度研究」模式会先花 3 分钟做规划,再用 20 分钟浏览材料,最后还要用 5 分钟把报告润色一遍。O3 模型甚至能为了回应一句 「你好啊」,跑满 20 分钟。

由于 强化学习(RL)和推理阶段计算的爆炸式增长,出现了一个谁也没预料到的现象:

AI 能完成的任务长度,每 6 个月翻一倍。

以前一次调用输出 1,000 个 token,现在轻轻松松就是 100,000 个 token。

image.png

图片来源:https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

当你真正把这件事算清楚,数字会让人抓狂。

现在,一次 20 分钟的「深度研究」调用大概花费 1 美元。但到 2027 年,我们将拥有能连续运行 24 小时、而且不会跑题的 AI agent…… 再叠加「前沿模型价格不降」的现实?

一次这样的调用,就变成了 72 美元 / 天 / 用户。

而且别忘了,未来这些 agent 是可以异步并发运行多个任务的。一旦我们真正部署这种 24 小时不间断运行的 agent,我们就不会再是「发一个指令、等它回你一条消息」。

我们会直接按批次调度:整个 AI 劳动力方阵同时并行处理问题,疯狂燃烧 token,仿佛又回到了 1999 年互联网泡沫那年。

重点来了 —— 我必须强调:

每月 20 美元的订阅费,连用户每天进行一次 1 美元的深度调用都撑不起。

但我们正朝着那个方向全速狂奔。每一次模型能力的提升,带来的并不是成本节省,而是:它能更有效地消耗更多算力。

就像你造了一个更节能的发动机,结果你拿它去造了一辆怪兽卡车。没错,油耗确实更高效了,但你现在烧的是原来的 50 倍汽油。

这正是那场导致 Windsurf 被强制平仓的「空头挤压(short squeeze)」—— 而任何采用「固定费率订阅 + 高 token 消耗」的商业模式的初创公司,如今也正面临同样的命运。

Anthropic 尝试填补

成本挤压的窟窿

Claude Code 的「无上限」套餐实验,是我们所见过的、为渡过这场风暴所做的最高明的尝试。他们用尽了浑身解数,但最终还是惨败。

他们的策略手册确实非常聪明:

  • 定价提高十倍

在 Cursor 收费 20 美元 / 月时,他们定价 200 美元 / 月。在开始「出血」(亏损)前,留出更多的缓冲空间。

  • 根据负载自动伸缩模型 

当负载过重时,从 Opus (每百万 token 75 美元) 切换到 Sonnet (每百万 token 15 美元)。在读取任务上,用 Haiku 进行优化。这就像 AWS 的自动伸缩,但伸缩的对象是「大脑」(模型)。

他们几乎可以肯定,是把这种行为直接构建进了模型权重之中,这是一种我们未来可能会更多见到的范式转换。

  • 将处理任务卸载到用户机器上

当用户的 CPU 正好闲置时,何必再启动自己的沙盒环境呢?

然而,尽管有这些高超的工程设计,token 的消耗量依然如超新星爆发般激增。

image.png

图片来源:https://www.viberank.app/

一百亿个 token。这相当于一个月内一万两千五百本《战争与和平》的量。

怎么做到的?即便是每次运行 10 分钟,一个人如何能消耗掉一百亿个 token?

事实证明,10 到 20 分钟的连续运行,时间长得足以让人们发现 for 循环的妙用。一旦你将 token 消耗与用户在应用内的在线时长脱钩,物理规律便会开始主导一切。给 Claude 设定一个任务,让它检查自己的工作,重构代码,进行优化,然后重复此过程,直到公司破产。

用户变成了 API 编排者,花着 Anthropic 的钱,运行着 7x24 小时不间断的代码转换引擎。从聊天到代理的演变一夜之间就完成了消耗量增加了 1000 倍。这是相变,而非渐变。

所以,Anthropic 取消了无限使用套餐。他们本可以尝试每月收费 2000 美元,但他们学到的教训不是定价不够高,而是在这个新世界里,任何订阅模式下都无法提供无限使用。

在这个新世界里,不存在一个行得通的固定订阅价格。

这种(定价)数学模型已经从根本上失效了。

所有人的囚徒困境 

这让其他所有人都陷入了进退两难的境地。

每家 AI 公司都知道,按使用量计费能救他们。但他们也知道,这同样会杀了他们。当你负责任地按照每千 token 收费 0.01 美元时,你那有风投支持的竞争对手却提供每月 20 美元的无限使用套餐。

猜猜用户会去哪里?

经典的囚徒困境:

* 所有人都按使用量计费 → 行业可持续发展

* 所有人都采用固定费率 → 陷入探底竞赛

* 你按量计费,别人用固定费率 → 你独自走向灭亡

* 你用固定费率,别人按量计费 → 你赢了(但之后还是会死)

所以,所有人都选择了背叛。

每个人都在补贴重度用户。每个人都在发布曲棍球棒式的增长曲线图。最终,每个人都会发布「重要的价格调整通知」。

Cursor、Lovable、Replit—— 他们都算得清这笔账。他们选择了今天要增长,明天要利润,最终走向破产 —— 但那是下一任 CEO 的问题。

老实说?这或许是对的。在「圈地运动」中,市场份额比利润率更重要。只要风投们还愿意继续开出支票来填补单位经济模型的窟窿……

如何避免亏损平仓? 

我们真的能避开 token 成本挤压吗?

最近有传言称 Cognition 正在以 150 亿美元的估值进行融资,而其对外公布的年经常性收入(ARR)甚至不到 1 亿美元(我猜实际可能接近 5000 万美元)。这与 Cursor 形成了鲜明对比,后者在年经常性收入达到 5 亿美元、增长曲线更为陡峭的情况下,才获得了 100 亿美元的估值。

Cursor 的收入是 Cognition 的八倍多,估值却只有其三分之二。那些风投到底知道哪些我们所不知道的关于 Cognition 的内幕?它们都是编写代码的 AI 代理。难道 Cognition 已经找到了摆脱死亡螺旋的方法?

有三条出路:

1. 从第一天起就采用按使用量计费

没有补贴,没有「先拉新、后变现」,只有实实在在的经济模型。这在理论上听起来很棒。 但问题是,你能找出一个实现了爆发式增长、面向消费者的、按使用量计费的 AI 公司吗?

消费者讨厌按量计费。他们宁愿为无限使用多付点钱,也不愿收到一张意料之外的账单。每一个成功的消费者订阅服务 ——Netflix、Spotify、ChatGPT—— 都是固定费率。一旦你开始计量收费,增长就停滞了。

2. 极高的转换成本 ⇒ 高利润率

这正是 Devin 全力押注的策略。他们最近宣布了与 Citi 和 Goldman Sachs 的合作,向这两家公司的各 40000 名软件工程师部署 Devin。按每月 20 美元计算,这是一个千万美元级的项目。

但问题来了:你宁愿从 Goldman Sachs 那里获得 1000 万美元的年经常性收入,还是从专业级个人开发者那里获得 5 亿美元?

答案是显而易见的:长达六个月的实施、合规审查、安全审计、以及地狱般的采购流程,意味着来自 Goldman Sachs 的收入虽然难以赢得 —— 但一旦赢得,客户就几乎不可能流失。

只有在银行里的那位唯一决策者将自己的声誉押注在你身上时,才能拿到这些合同 —— 届时,所有人都会尽其所能确保项目成功。

这也解释了为什么除了那些超大规模云服务商之外,最大的软件公司都是向这类客户进行销售的「记录系统公司」 [如 CRM / ERP / EHRs]。他们的利润率也都能达到 80-90%,因为客户越难流失,他们对价格就越不敏感。

等到竞争对手出现时,你已经深深嵌入到对方的行政流程中,更换供应商需要又一个长达六个月的销售周期。问题不是「你不能走」,而是 —— 你的 CFO 宁愿去死,也不想再经历一次供应商评估。

3. 垂直整合 ⇒ 从基础设施上赚钱 

这就是 Replit 的玩法:将编码代理与应用托管、数据库管理、部署监控、日志记录等服务捆绑在一起。在每个 token 上都亏钱,但在技术栈的每一个其他层面上为新一代开发者捕获价值…… 看看 Replit 的垂直整合做得多深就知道了。

image.png

图片来源:https://x.com/mattppal/status/1932798993626771556

把 AI 当作亏本换流量的产品,来推动那些能与 AWS 竞争的服务的消费。你卖的不是推理服务,而是其他一切。推理服务本身只是营销开支。

这种模式的天才之处在于,代码生成天然地创造了对托管服务的需求。每个应用都需要运行的地方,每个数据库都需要管理,每个部署都需要监控。让 OpenAI 和 Anthropic 去进行推理服务的价格归零竞赛吧,而你拥有了其他的一切。

那些还在玩「不计成本、追求增长的固定费率模式」的公司呢?它们都只是行尸走肉,只不过它们的昂贵葬礼被安排在了今年第四季度。

未来之路 

我总是看到创始人们指望着「明年模型成本会便宜十倍!」这句话,就好像抓住了一根救命稻草。的确如此,但到那时,你的用户对模型的期望可能会提高二十倍。目标正在冲刺着远离你。

还记得 windsurf 吗?由于 cursor 给他们的利润表带来了巨大压力,他们最终也未能找到摆脱困境的方法。即便是拥有全球最深度垂直整合应用层的 anthropic,也无法让固定订阅费下的无限使用模式跑通。

尽管「levered beta is all you need」一文的结论 —— 即先发优势胜过聪明才智 —— 依然成立,但没有计划的「先发」也意味着你会第一个走进创业坟场。

image.png

  • 相关博客链接:https://ethanding.substack.com/p/levered-beta-is-all-you-need

现在可没有 Google 会为负毛利业务开出 24 亿美元的支票了。当「以后」意味着你的 AWS 账单超过了你的收入时,就不再有「我们以后再想办法」这回事了。

但好在,至少明年的模型成本会便宜十倍。

.....

#SeaS

工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA

论⽂标题:SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning

作者:Zhewei Dai, Shilei Zeng, Haotian Liu, Xurui Li, Feng Xue, Yu Zhou

论⽂链接:https://arxiv.org/abs/2410.14987

代码链接:https://github.com/HUST-SLOW/SeaS

少样本⼯业异常⽣成迎来「全能选⼿」

当前先进制造领域的产线良率往往超过 98%,因此异常样本(也称为缺陷样本)的搜集和标注已成为⼯业质检的核⼼瓶颈,过少的异常样本显著限制了模型的检测能⼒,利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择,但现有⽅法存在明显局限:

要么仅能完成单⼀任务(如只⽣成异常或正常产品),要么需针对不同异常类型单独建模,不仅⽣成能⼒受限,还因依赖⼤量专⽤模型难以适应复杂场景。

为此,华中科技⼤学慢⼯团队(SLOW Team)提出统⼀的少样本⼯业⽣成模型 SeaS。该模型依托 U-Net 的差异化学习能⼒,精准捕捉正常产品的细微变化与异常区域的丰富差异,仅需要 1-3 张训练样本,通过单⼀模型即可同步实现多样化异常⽣成、全局⼀致的正常产品合成及精确异常掩码标注⽣成,为⼯业场景⽣成任务建⽴了新的技术基准,有效推动了相关领域的技术进步。

图片

摘要:SeaS 如何突破

⼯业场景⽣成瓶颈?

针对产业界对多样化异常样本⽣成、⾼效建模及精准掩码标注的需求,SeaS 基于 「异常区域变化丰富、正常产品变化细微」 的本质差异,实现了技术突破:

  • 设计⾮平衡异常⽂本提示(UA),以多个异常词元与单个正常词元的⾮对称结构,精准控制异常区域的变化度;
  • 提出解耦异常对⻬(DA)损失和正常图像对⻬(NA)损失,分别保证异常多样性与正常产品真实性;
  • 构建精细化掩码预测分⽀,融合 U-Net 判别特征与⾼分辨率 VAE 特征,⾸次实现像素级精确异常掩码⽣成。

在 MVTec AD、VisA 等主流⼯业数据集上,SeaS 全⾯超越现有少样本⼯业异常⽣成⽅法。基于其⽣成数据训练的有监督分割模型,异常分割 IoU 平均提升 12.79%,充分验证了该框架的有效性。

创新点:三⼤设计

推动⼯业场景⽣成技术升级

1. 统⼀的少样本⽣成框架: 突破传统单⼀任务局限,仅需要 1-3 张训练样本,通过⼀个模型即可同步实现多样化异常⽣成、全局⼀致的正常产品合成及像素级精确掩码标注,为领域设⽴新标杆。

2. 分离与共享微调机制: 分别对正常产品和异常的变化程度建模,提升了⽣成过程的精准控制能⼒,兼顾异常多样性与正常产品⼀致性。

3. 精细化掩码预测: 创新的精细异常掩码预测分⽀,通过级联融合 U-Net 判别特征与⾼分辨率 VAE 特征,实现像素级精确的异常标注,有效提升了下游模型性能。

⽅法:SeaS 的技术架构与实现逻辑

整体框架:分离与共享的微调⽹络

SeaS 的核⼼在于 「分离建模、共享学习」,仅需要少量的 1-3 张训练样本,通过同⼀个 U-Net 架构同时处理正常与异常的⽣成。具体流程为:

1. 设计⾮平衡异常⽂本提示,包含分别表征异常和正常产品的词元集合;

2. 提出解耦异常对⻬(DA)损失,将异常图像区域与异常词元绑定;

3. 利⽤正常图像对⻬(NA)损失,使正常词元能够表达全局⼀致的正常产品;

4. 采⽤混合训练策略,上述两个训练过程针对异常和正常图像分别处理,并基于共享的 U-Net 架构实现。

图片

不均衡异常⽂本提示:分离建模异常与正常产品

传统⽂本提示中,正常与异常词元数量均衡,难以体现⼆者的本质区别 —— 正常产品变化细微,异常区域则变化丰富。SeaS 提出的⾮平衡异常⽂本提示(UA)针对性解决这⼀问题:

  • 结构设计:UA 提示包含 1 个正常词元 <ob> (表征正常产品)和多个异常词元 <df_n>(表征异常),每种异常类型对应⼀组专属的异常词元。

图片

  • 训练⽅式:使⽤正常图像训练 <ob> 的嵌⼊,异常图像训练  <df_n > 的嵌⼊,实现正常与异常特征的分离学习。
  • 词元数量影响:如图 3(a)所示,1 个 <ob> 即可表达正常产品并保证全局⼀致性,多个 < ob > 会聚焦局部特征⽽破坏全局⼀致性;多个 <df_n> 是控制异常⽣成多样性的必要条件(不同词元关注异常的不同属性),但数量过少(如 N=1)易导致 「异常缺失」,过多(如 N=8)会增加多样性但降低真实性。

图片

解耦异常对⻬损失:精准对⻬异常区域与词元

针对少量异常图像及其对应掩码,SeaS 提出解耦异常对⻬(DA)损失,实现异常词元  <df_n> 与异常区域的精准绑定:

  • 损失定义:

图片

其中,

图片

为第 n 个异常词元对应的交叉注意⼒图,N 为异常词元数量,L 为⽤于对⻬的 U-Net 层数,

图片

为⼆值掩码(异常区域为 1,背景为 0),

图片

 为正常词元对应的交叉注意⼒图,⊙为元素积。

  • 作⽤机制:第⼀项根据掩码 
  • 图片

  •  将异常区域与 <df_n > 对⻬;第⼆项降低正常词元注意⼒图在异常区域的响应,避免正常词元与异常区域对⻬。
  • 异常图像总损失:

图片

结合噪声预测损失,通过对异常图像的前向扩散与噪声预测,进⼀步提升异常⽣成的真实性与多样性。

正常图像对⻬损失:平衡正常产品的⼀致性与多样性

增加正常词元 <ob> 数量虽能提升⽣成多样性,但可能降低正常图像真实性并破坏全局⼀致性;⽽仅将单个 < ob> 与少量训练图像对⻬,⼜易出现过拟合。为此,SeaS 提出正常图像对⻬(NA)损失:

  • 损失定义:

图片

  • 计算过程:对正常图像使⽤随机噪声和时间步进⾏前向扩散,得到带噪潜变量,将其与正常词元嵌⼊输⼊ U- Net 预测噪声,再与随机噪声计算损失,从⽽学习具有全局⼀致性的正常产品。

混合训练策略:提升异常⽣成多样性与模型泛化性

针对传统⽅法为每种异常单独建模导致的过拟合问题,SeaS 提出分离与共享微调策略:

  • 总损失函数:结合异常损失与正常损失,实现统⼀优化。

图片

  • 训练流程:将某产品的所有异常图像整合为统⼀集合,与正常图像训练集混合抽样组成批次进⾏训练。
  • 优势:如图 3(c)所示,缓解单类异常样本有限导致的过拟合,提升异常⽣成的多样性与真实性,⽀持⽣成未⻅异常。

精细化掩码预测分⽀:给异常 「贴」 上精准标签

为提升异常掩码的像素级精度,SeaS 设计级联的精细化掩码预测(RMP)分⽀,嫁接于训练后的 U-Net,通过 「粗特征提取 + 精细优化」 两步⽣成精准掩码:

图片

U-Net 粗糙特征提取

从 U-Net 解码器的 「up-2」 和 「up-3」 层提取特征,经通道压缩、拼接及 Transformer 融合,得到对异常具有强判别性的粗特征。

掩码精细化模块

针对粗特征上采样后易丢失细节的问题,设计三级串联的掩码精细化模块(MRM):

  • 每级模块融合 VAE 的⾼分辨率特征与待优化的判别特征,逐步提升特征的分辨率与判别性;
  • 最终输出的特征兼具⾼分辨率与强判别性,为精准掩码⽣成奠定基础。

损失函数

采⽤ Focal Loss 对异常与正常图像的⾼低分辨率掩码进⾏监督,确保异常区域标注精准,同时抑制正常区域的误判,提升掩码预测精度。

图片

实验结果

少样本⼯业异常⽣成性能领先 SOTA:保真度与多样性双重突破

在少样本⼯业异常⽣成的关键指标⽐拼中,SeaS 表现突出:

  • 各项核⼼指标全⾯优于现有⽅法,IS 分数更⾼,说明⽣成的图像真实度更强;IC-LPIPS 表现更优,体现出异常类型的丰富多样性。
  • 从⽣成效果看(图 5),异常图像细节清晰,类型丰富,且掩码与异常区域精准匹配;正常图像(图 6)全局⼀致性好,真实感强,充分验证了 SeaS 在少样本⽣成任务中的优势。

图片

图片

助⼒异常检测性能提升:多⽅法效果显著优化

SeaS ⽣成的数据能有效赋能下游异常检测任务:

  • 将其⽣成的异常样本应⽤于基于合成数据的检测⽅法(如 DRAEM、GLASS),多数据集上的检测性能均有提升,漏检情况明显改善(表 2)。
  • ⽤⽣成的正常图像扩充训练集后,⽆监督检测⽅法的误检减少,各项指标得到优化,展现出 SeaS 在实际应⽤中的价值(表 3)。

图片

图片

增强有监督分割模型能⼒:指标提升幅度明显

利⽤ SeaS ⽣成的 1000 对图像 - 掩码对训练有监督分割模型,效果显著:

  • 在 MVTec AD、VisA、MVTec 3D AD 数据集上,平均 IoU 分别提升 11.17%、11.71%、15.49%;
  • 图像级 AUROC 相应提升 2.77%、5.92%、6.68%(表 4),充分证明了 SeaS ⽣成数据对提升分割模型性能的积极作⽤。

图片

图片

实验结果表明,LFD(https://github.com/HUST-SLOW/LFD)是有监督的异常分割模型的最优选择。

LFD 最初是为道路分割任务开发的,它会⽤到 ResNet-18 第⼀阶段的低级特征。⽽低级特征在异常分割任务中也⼤有可为,于是将它的应⽤拓展到了有监督异常分割领域。

LFD 采⽤双边结构设计:先通过空间细节分⽀,借助 ResNet-18 第⼀阶段提取低级特征;再通过上下⽂语义分⽀⾼效提取上下⽂特征,该分⽀对输⼊图像进⾏⾮对称下采样,还引⼊了聚合模块,能达到媲美 ResNet-18 第三阶段的感受野,计算量却更⼩。最后,通过选择性融合模块计算低级特征与上下⽂特征间的像素级注意⼒。

图片

在异常分割中,LFD ⽤ SeaS ⽣成的图像 - 掩码对进⾏训练。它的模型⼤⼩仅 0.936M,远⼩于 BiSeNetV2(3.341M)和 UperNet(64.042M),但像素 AP 分数反⽽⾼出 5.34%,F1 分数⾼出 3.99%。

核⼼结论

本研究提出统⼀的少样本⼯业异常⽣成⽅法 SeaS,探索了异常具有⾼度变化⽽正常产品保持全局⼀致性这⼀内在特性。通过设计分离与共享的微调策略,对正常产品和异常的不同变化模式进⾏建模,使精细化掩码预测分⽀能够利⽤判别性特征预测精确掩码。SeaS 显著提升了基于合成数据的异常检测⽅法和有监督异常检测⽅法的性能,并赋予了有监督分割模型更优异的表现。⼤量实验验证了该⽅法在⼯业异常⽣成与检测任务中的有效性。

.....

#7B 

高质量多模态交织预训练。

BAGEL 是字节 2025.05 出品的理解生成统一的开源模型。BAGEL 搞了一个高质量多模态交错数据集,在这个数据集上进行训练,BAGEL 表现出了逐渐涌现的能力。从基本的理解,生成,逐渐到简单的编辑和复杂的编辑能力。这个现象很有趣。此外,BAGEL 在标准基准的多模态生成和理解方面明显优于开源统一模型,同时展示了先进的多模态推理能力。

下面是对本文的详细介绍。

图片

图1:BAGEL 的各种能力展示

图1:BAGEL 的各种能力展示

1 万字长文解读生成理解统一模型 BAGEL:高质量多模态交织预训练

论文名称:Emerging Properties in Unified Multimodal Pretraining

论文地址:​https://arxiv.org/pdf/2505.14683​

项目主页:​https://bagel-ai.org/​

1.1 BAGEL简述

Scalable Generative Cognitive Model (BAGEL) 是在大规模交错多模态数据上训练的具有 7B active 参数 (共 14B 参数) 的开源多模态基础模型。

BAGEL 我认为是 ByteDance 最近做出的明显领先的理解生成统一模型 (Unified Multimodal Model)。在 2025 年 5 月之前,很多理解生成统一模型,比如 Janus-Pro,Chameleon 等等,还是在 image-text 配对数据上训练。这些模型与 GPT-4o 或是 Gemini 2.0 还有很大差距,其底层技术仍未披露。

BAGEL 这个工作展示出一个比较新的思路:BAGEL 认为缩小这一差距的关键是:要扩展多模态交错数据 (multimodal interleaved data),整合文本、图像、视频和网络资源。BAGEL 的实验揭示出了当多模态预训练规模不断扩大时,模型能力不断涌现。不仅如此,除了增强多模态理解和生成能力之外,一些复杂的组合能力也得到了促进,比如自由的视觉操作,长上下文推理的多模态生成等等。​

高质量多模态交织数据集

BAGEL 做了一个高质量多模态交织数据集。除了 web 数据之外,还有视频数据 (自然提供像素级、概念性、时间和物理连续性)。视频数据对获得世界知识是有利的。除此之外,这些交错格式的数据还自然地涵盖了很多任务:多模态对话,文生图或视频,图像操作。受 DeepSeek-R1 的启发,作者进一步对交错数据丰富了一些 reasoning-oriented 的内容,来促进多模态推理。最后的数据集给模型带来了上下文预测、世界建模和复杂多模态推理的能力。​

模型架构

BAGEL 采用了 Transformer-Experts (MoT) 架构,该架构采用对特定模态参数的选择性激活。BAGEL 不像 MetaQuery,MetaMorph 等引入 Connector,而是通过共享的 Self-Attention 操作实现多模态理解和生成之间的长上下文交互。​

BAGEL 能力

BAGEL 在标准多模态理解排行榜上优于当前的 top-tier 开源 VLM (比如 Qwen2.5-VL 等),在多模态生成上与 SD3 和 FLUX.1-dev 等文生图质量差不多。此外,与领先的开源模型相比,BAGEL 在经典图像编辑场景中表现出始终优越的定性结果。更重要的是,BAGEL 的能力可以扩展到自由形式的视觉操作 (free-form visual manipulation)、多视图合成 (multiview synthesis) 和世界导航 (world navigation) 等等这些做 "世界建模" 任务需要的能力,超出了以前的图像编辑模型的范围。如图 1 所示。​

涌现性质 (Emerging Property)

BAGEL 作者观察到一个明显的涌现性质:基本的多模态理解和生成能力首先收敛。然后开始出现复杂的编辑能力以及自由形式的视觉操作能力。最后,长上下文推理开始帮助多模态理解和生成。

1.2 BAGEL 模型方案

MoT 架构,包含两个 Transformer Expert。

两个视觉 Encoder: 一个用于理解 (捕获语义信息),一个用于生成 (捕获像素信息)。

两个 Transformer Expert 通过每一层的共享 Self-attention 操作在相同的 token sequence 上运行。

预测文本 token 时: BAGEL 遵循 Next-Token-Prediction 范式。

预测视觉 token 时: BAGEL 采用 Rectified Flow 方法。

图2:BAGEL 使用两个 Transformer 专家来处理理解和生成信息,所有 token 在每个 Transformer block 中都共享多模态 Self-attention。两个不同的 Encoder 分别捕获语义内容和低级像素信息,用于图像理解和生成任务

图2:BAGEL 使用两个 Transformer 专家来处理理解和生成信息,所有 token 在每个 Transformer block 中都共享多模态 Self-attention。两个不同的 Encoder 分别捕获语义内容和低级像素信息,用于图像理解和生成任务

在之前的多模态理解生成统一模型中,有这么几种设计选择:

1) 离散自回归。代表:Chameleon,Emu3,Janus-Pro,Janus,TokenFlow,VILA-U,Liquid

Quantized Autoregressive Model 方法利用 Next-Token-Prediction 范式来生成文本和视觉 token。

优势:可以直接利用现有的 LLM 基础设施。

劣势:Quantized Autoregressive Model 的视觉生成质量,在经验上不如基于 Diffusion 的模型。而且,推理延迟由于 Autoregressive 方法的顺序性质而受到影响。

2) 外部扩散模型。代表:MetaMorph,MetaQuery,Emu2,Seed-X

这种方法是:LLM Backbone 结合外部扩散模型。这种设计通过轻量级的 Adapter 将预训练的 LLM/VLM 与 Diffusion Model 连接起来。LLM Backbone 自回归生成一组 latent token 作为 "semantic condition" 信号,然后由 Diffusion Model 借助它来生成图像。

优势:可以以最小的数据消耗表现出快速收敛性,在一些多模态生成和理解 Benchmark 上得到有竞争力的性能。

劣势:将 LLM Context 压缩到相对较少的 latent token 中。这个做法在理解和生成模块之间引入了明确的 Bottleneck,会带来信息损失的风险,尤其是在长上下文多模态推理中。这样的约束可能与大型基础模型的 scaling philosophy 相矛盾。

3) 集成 Transformer。代表:JanusFlow,LLamaFusion,TransFusion

LLM 和 Diffusion Model 集成在单个 Transformer 中。在 Autoregressive Transformer (强大的理解/推理能力) 和 Diffusion Transformer (强大的视觉生成能力) 的互补优势的驱动下,使用共同的模型架构来实现这两种范式之间的无缝切换。

优势:在所有 Transformer Block 都可以有 Context,没有外部扩散模型方法的 Bottleneck,从而实现生成和理解模块之间的无损交互,更适合 scaling。

劣势:与外部扩散模型解决方案相比,需要更多的训练的计算。

BAGEL 认为统一模型有能力从大规模交错多模态数据中学习更丰富的多模态能力。为此,BAGEL 选择了 "集成 Transformer" 的方案,认为它在大规模训练设置中具有更大的潜力,且可以更好地作为长上下文多模型推理和强化学习的基础模型。

1.3 BAGEL 模型架构Backbone 架构

BAGEL 的 Backbone 继承自 LLM,decoder-only 的 Transformer 架构。作者选择 Qwen2.5 LLM 作为初始化,因为其卓越的性能。采用 RMSNorm 进行归一化,SwiGLU 激活,RoPE 进行位置编码,GQA 用于降低 KV cache。此外,按照图像/视频生成模型的常见做法在每个 attention block 中添加 QK-Norm,这个做法在稳定训练过程方面有效。

视觉编码器

  • 理解编码器: 使用 ViT Encoder 将像素转换为 token。采用具有固定 384 分辨率的 SigLIP2-so400m/14 初始化 ViT Encoder。在此基础上,首先插值位置编码,设置 980×980 作为最大输入尺寸,然后集成 NaViT,使其能够以原生纵横比处理图像。采用两层 MLP connector 来匹配 ViT token 和 LLM hidden state 的特征维度。
  • 生成编码器: 使用来自 FLUX 的预训练 VAE 将图像从 pixel space 转换到 latent space。latent representation 的下采样比为 8,latent channel 为 16,然后由 2×2 patch embedding 层处理以减少空间大小并匹配 LLM Backbone 的隐藏维度。VAE 模型在训练期间被冻结。

位置编码: BAGEL 在 ViT 和 VAE token 集成到 LLM Backbone 之前,对其加上 2D 位置编码。

Diffusion timestep 编码: 遵循 CausalFusion,直接对 VAE token 加上 timestep embedding,而不是像 SD3,DiT 那样使用 AdaLN 操作。这种修改保留了性能,同时产生了更清晰的架构。

LLM 内部: text token,ViT token,VAE token 根据输入的模态结构交错。对于属于同一样本的 token,采用了 causal attention 机制的广义版本。这些 token 首先被划分为多个连续的 split,每个 split 都包含来自单个模态的 token (比如 text、ViT 或 VAE)。split 之间: 一个 split 中的 token 可能关注前面 split 中的所有 token。split 内部: 对 text token 采用 causal attention,对 visual token 保持 bidirectional attention。

广义因果注意力 (Generalized Causal Attention)

广义因果注意力如下图

在训练期间,交错的多模态生成样本可能包含多个图像。对于每个图像,准备了3组 visual token:

  • Noised VAE tokens:被 diffusion noise 加噪的 VAE latents,Rectified-Flow 训练使用,计算 MSE Loss。
  • Clean VAE tokens:原始的不包含噪声的 VAE latents,在生成后续图像或文本标记时充当 Condition。
  • ViT tokens:从 SigLIP2 Encoder 获得,可以有助于统一生成和理解交织数据的输入格式。而且,可以实证性地提高交错生成的质量。

对于交错图像或文本生成,后续图像或文本 token 可能 attend to 先前图像的 clean VAE tokens 和 ViT tokens,但不关注它们的 Noised VAE tokens。

对于交错多图像生成,采用 diffusion forcing 策略,将独立的 noise level 添加到不同的图像中。此外,为了增强生成一致性,遵循 CausalFusion 的做法,随机分组连续的图像,并在每个组内应用 full attention。每组内的噪声水平相同。

使用 PyTorch FlexAttention 实现广义因果注意力,比 naive scaled-dot-product attention 实现了约 2× 加速。推理过程中,广义因果注意力允许缓存生成多模态上下文的 key-value (KV) pairs,从而加速多模态解码。只存储干净的 VAE tokens 和 ViT tokens 的 KV pair。一旦图像完全生成,上下文中相应的 Noised VAE tokens 被它们的 Clean VAE tokens 替换。为了在交错推理中实现 classifier-free guidance,分别随机丢弃 text,ViT 和 clean VAE tokens (概率为 0.1、0.5 和 0.1)。

图3:训练期间 BAGEL 的 Causal mask。t 是 noise timestep (t=0 意味着无噪声)。对于每个单个图像,在自己的 VAE 和 ViT 特征中应用 full attention。(a) 在交错图像-文本生成过程中,每个图像只关注前图像的干净 VAE 和 ViT token。(b) 对于交错的多图像生成,采用 diffusion forcing 策略

图3:训练期间 BAGEL 的 Causal mask。t 是 noise timestep (t=0 意味着无噪声)。对于每个单个图像,在自己的 VAE 和 ViT 特征中应用 full attention。(a) 在交错图像-文本生成过程中,每个图像只关注前图像的干净 VAE 和 ViT token。(b) 对于交错的多图像生成,采用 diffusion forcing 策略

1.4 Transformer 设计

BAGEL 比较了几种 Transformer 变体:标准 Dense Transformer、Mixture-of-Experts (MoE) 和 Mixture-of-Transformers (MoT) 架构。

  • MoE 变体:只复制每个 Qwen2.5 LLM block 中的 FFN 作为 generation expert 的初始化。
  • MoT 变体:复制 Qwen2.5 LLM 的所有可训练参数,来创建 generation expert。

BAGEL 模型中的 MoE 和 MoT 都使用 hard routing:新复制的 generation expert 专门处理 VAE tokens,而原来的 understanding expert 处理 text 和 ViT tokens。尽管与密集基线相比,MoE 和 MoT 架构将总参数计数增加了大约两倍,但 3 个模型变体在训练和推理期间都具有相同的 FLOPs。

图4:不同架构的 loss 曲线。CE Loss 和 MSE Loss 分别在多模态理解和生成任务上计算。消融实验在 1.5B LLM 上进行。生成和理解数据的采样率设置为 4:1

图4:不同架构的 loss 曲线。CE Loss 和 MSE Loss 分别在多模态理解和生成任务上计算。消融实验在 1.5B LLM 上进行。生成和理解数据的采样率设置为 4:1

作者对 1.5B Qwen -2.5 LLM 进行了消融实验,将 Transformer 架构设定为唯一变量。如图 4 所示,MoT 始终优于 Dense 和 MoE,差距在多模态生成任务上最为明显。

对比左右图不难看出,MSE Loss (Generation) 表现出平滑单调递减的轨迹。其中,MoT 架构不仅收敛最快,而且最终损失最低。相比之下,CE Loss (Understanding) 表现出波动,这也是交错异构数据的预期结果。但 MoT 总体上仍然保持了最佳性能。

这些发现突出了将用于 Generation 和 Understanding 的参数解耦开的明显优势,两个目标可能会引导模型参数朝向不同的优化方向。

1.5 BAGEL 训练数据

数据定义了大模型的知识边界,BAGEL 在跨越多种模态 (包括语言、图像、视频和网络数据) 的多种数据集上进行训练,使其能够执行多模态推理、上下文预测、物理动力学建模和未来帧预测,所有这些都通过统一的多模态接口。除了标准的视觉语言 (VLM)、文生图 (T2I) 和语言模型 (LLM) 数据集之外,BAGEL 还从网络和视频源构建了新的视觉文本交错数据集,以进一步提高模型的顺序多模态推理能力。

图 5 总结了训练数据的规模和组成。

图5:BAGEL 数据统计。灰色代表多模态交错数据

图5:BAGEL 数据统计。灰色代表多模态交错数据

纯文本数据

为了保持 LLM 语言建模的能力,使用一组高质量的纯文本数据来补充训练语料库。这些数据语言覆盖广泛,在通用文本任务中实现强大的推理和生成能力。

图文对数据

图文对数据在多模态学习中起核心作用,为视觉语言模型和文生图提供了大规模的视觉监督。BAGEL 根据视觉-文本配对数据的下游使用将其组织成两个子集:一个用于 VLM 预训练,一个用于 T2I 生成。VLM 训练利用大规模的图文对,涵盖了广泛的视觉概念,主要来自 web 的替代文本和 caption。数据经历了基于 CLIP 的相似性过滤、分辨率和纵横比约束、文本长度检查和重复数据删除,以确保质量和多样性。文生图数据结合了高质量的图文对,以及一些来自现有 T2I 模型的合成数据。

图文交织数据

视觉-文本配对数据不能够支持涉及多个图像和中间文本的复杂上下文推理。在此类数据上训练的模型通常难以捕捉跨模态的视觉和语义关系,导致生成不太连贯。所以 BAGEL 在训练中引入了图文交织数据,以支持更丰富的多模态交互。

训练语料库集成了两个主要来源:视频数据网络数据

视频数据通过直接从现实世界中捕获时间和空间动态,提供丰富的世界知识。BAGEL 使用公开可用的在线视频资源以及两个开源数据集构建我们的视频数据集:Koala36M (提供大规模的教学和交互丰富的内容),MVImgNet2.0 (包含从不同相机视点捕获的对象以支持多视图空间理解)。

Web 数据捕获复杂的现实世界多模态结构,并提供跨越广泛领域的各种知识。它包括自然交错的资源,例如百科全书文章、逐步视觉教程和其他丰富的接地文档。这种交错格式为训练模型执行多模态推理提供了丰富的监督。BAGEL 基于 OmniCorpus (一个从 Common Crawl 预处理的大规模数据集,提供大量具有交错文本和图像的网络文档)。

图文交织数据的组成主要有两部分:从视频获得交错数据,以及从网站获得交错数据。BAGEL 通过这两个做法分别构造了 45M 和 20M 交错数据。如下图 6 所示。

图6:图文交错数据构造 pipeline

图6:图文交错数据构造 pipeline

推理增强数据

BAGEL 假设在图像生成之前引入推理步骤可以有助于讲清楚视觉目标,并且构建了 500k 个推理增强的例子。

1.6 BAGEL 训练策略

BAGEL 使用多阶段训练策略:

  • Alignment 阶段: 把 SigLIP2 ViT encoder 和 Qwen2.5 LLM 对齐,只训练 MLP connector,把 vision encoder 和语言模型冻结。这个阶段仅使用图像-文本对数据,每个图像被调整为 378×378 的固定分辨率以匹配 SigLIP2 的输入大小。
  • Pre-training 阶段: 除了 VAE 之外,所有模型参数都打开训练。这个阶段的训练资料包括 2.5T tokens,涵盖了 text,image–text pairs,multimodal conversation,web-interleaved,video -interleaved 数据。这个阶段采用原生分辨率策略进行多模态理解和生成,对每张图像的最大长边和最小短边都有限制。
  • Continued Training 阶段: 这个阶段增加了视觉输入分辨率。进一步增加了交错数据的采样率,以强调学习跨模态推理,因为模型的核心理解和生成能力变得更加稳定可靠。CT 阶段消耗大约 2.6T tokens。
  • Supervised Fine-tuning 阶段: 对于多模态生成,从图像-文本对数据集和交错生成数据集中构建了一个高质量子集。对于多模态理解,从 LlaVA-OV 和 Mammoth-VL 的 SFT 数据中过滤一个子集。这个阶段训练 token 的总数是 72.7B。

与 VLM 或 T2I 模型的预训练不同,统一的多模态预训练需要仔细调整数据采样率和学习率,以平衡来自理解和生成任务的信号。

数据采样率

作者对 1.5B Qwen2.5 LLM 进行了一系列消融实验。如图 7 所示,将生成数据的采样率从 50% (1g1u) 增加到 80% (4g1u) 稳步降低 MSE Loss。相比之下,CE Loss 在采样率之间没有表现出一致的模式。在 4g1u 和 2g1u 之间,观察到的差距最大,在 14,000 step 处为 0.07,对下游任务的影响可以忽略不计。这些发现表明,生成示例应该比理解示例更频繁地采样。

图7:不同数据比的 Loss 曲线

图7:不同数据比的 Loss 曲线

学习率

如图 8 所示,这两种损失的行为相反:较大的学习率使 MSE Loss 收敛得更快,而较小的学习率有利于 CE Loss。为了调和这种权衡,将单独的权重因子分配给两个目标。

图8:不同学习率的 Loss 曲线

图8:不同学习率的 Loss 曲线

1.7 BAGEL 的涌现能力

涌现能力 (Emerging ability) 指的是: 如果某种能力在模型训练的早期没有出现,但在模型训练的后期出现了,那就可以说它是一种涌现能力。

这种定性转变通常被称为相变 (phase transition),表示模型行为发生了突然和戏剧性的变化,而且这种行为也无法通过训练损失曲线来预测。BAGEL 在统一模型中观察到类似的现象。因此,BAGEL 就通过评测一系列的历史 checkpoint 来检验模型能力的出现。具体来讲作者报告了 VLM benchmark (评测理解),GenEval 分数 (评测生成),GEdit 分数和 IntelligentBench 分数。这几个指标一起评估模型在简单和复杂的多模态推理方面的能力。

不同的任务表现出不同的学习动力学和饱和行为。如果选择达到 85% 峰值性能所需的可见 token 数量作为指标,如图 9-12 所示,发现传统的理解和生成任务达到饱和比较早:分别在大约 0.18T 和 0.68T token 处就达到了饱和。相比之下,既需要理解和生成能力的编辑任务表现出较慢的收敛,在 2.64T token 之后达到 85% 的性能。智能编辑任务 (消除了简单的编辑 case,强调复杂的多模态推理),需要 3.61T token 才能达到 85% 的性能。

下面的图 9-12 为 BAGEL 在不同任务上的预训练性能曲线。颜色较轻的区域代表低分辨率 Pre-training 阶段,颜色较暗的区域代表高分辨率 Continued Training 阶段。

随着 training token 数量的增加,BAGEL 表现出一致的改进。性能和训练规模之间的关系可总结如下:

  1. BAGEL 在各种任务中,随 training token 数量增加,性能持续改进
  2. 不同的能力在不同的阶段涌现:理解和生成能力首先出现,然后是基本的编辑能力,最后才是更为智能的编辑能力。这些任务的复杂性也逐渐增加。
  3. 在图像编辑任务中,采用 VAE 和 ViT 特征,超过了单独使用 VAE 特征。尤其是在智能编辑中存在明显差距。这也支持了 ViT 提供重要的语义上下文来帮助生成的看法。

图9:图像理解任务的平均得分

图9:图像理解任务的平均得分

图10:图像生成任务的 GenEval 得分

图10:图像生成任务的 GenEval 得分

图11:经典图像编辑任务的 GEdit 总体得分

图11:经典图像编辑任务的 GEdit 总体得分

图12:Intelligent Editing 任务的 IntelligentBench 得分

图12:Intelligent Editing 任务的 IntelligentBench 得分

下图 13 是对于涌现行为的定性研究结果。可以观察到与性能曲线一致的趋势:在看到 1.5T token 之前,生成质量已经很强,在看到 3.0T token 后质量略有提高,分辨率更高。对于文本渲染,生成正确拼写 "hello" 和 "BAGEL" 的能力在大约 1.5T 到 4.5T token 之间出现。

图13:不同训练 token 数量的模型比较。展示的 case 是文生图和图像编辑

图13:不同训练 token 数量的模型比较。展示的 case 是文生图和图像编辑

如下图 14 所示是智能编辑任务的定性可视化,也可以观察到涌现行为。与图 13 的传统编辑 (只涉及对输入图像进行部分修改) 不同,智能编辑通常需要基于多模态推理生成全新的概念。在看到 3.5T token 之前,模型倾向于以最小的变化重现输入图像,这是一种任务没被完全理解的策略。在看到 3.5T token 后,模型开始展示清晰的推理,产生连贯且语义适当的编辑。

图14:不同 training token 数量的模型比较。展示的是需要强大多模态推理能力的智能编辑的 case

图14:不同 training token 数量的模型比较。展示的是需要强大多模态推理能力的智能编辑的 case

1.8 BAGEL 实验结果

作者在多模态理解、T2I 生成和经典图像编辑上评估了 BAGEL 模型。

视觉理解

结果如图 15 所示。在 7B 的激活参数下,BAGEL 在理解任务上的表现优于现有的统一模型。比如,在 MMMU 和 MM-Vet 上分别比 Janus-Pro 实现了 14.3 和 17.1 个点的改进。值得注意的是,MetaQuery-XL 依赖于冻结的,预训练的 Qwen2.5-VL Backbone,限制了其适配度。此外,与 Qwen2.5-VL 和 InternVL2.5 等专门做理解的模型相比,BAGEL 在大多数这些基准上提供了卓越的性能。

图15:视觉理解任务结果对比

图15:视觉理解任务结果对比

视觉生成

BAGEL 在两个基准上评估视觉生成性能:GenEval 和 WISE。如图 16 所示,在与 MetaQuery-XL 相同的评估设置下,BAGEL 的总体得分为 88%,优于专门的生成模型 (FLUX-1-dev:82%、SD3-Medium:74%) 和统一模型 (Janus-Pro:80%,MetaQuery-XL:80%)。在 WISE 基准测试中,BAGEL 超过了除领先的私有模型 GPT-4o 之外的所有先前模型。这表明 BAGEL 具有很强的推理能力与世界知识。

图16:GenEval 上的文生图性能对比

图16:GenEval 上的文生图性能对比

作者对 BAGEL 和 Janus -Pro 7B、SD3 -medium 和 GPT -4o 进行了定性比较。如图 17 所示,BAGEL 生成的图像明显好于 Janus -Pro 7B,并且还超越了广泛使用的文生图模型 SD3 -medium。

图17:T2I 定性比较结果

图17:T2I 定性比较结果

图像编辑

BAGEL 使用 GEdit-Bench 进一步评估了经典图像编辑能力。如图 18 所示,BAGEL 取得了与当前领先的专家图像编辑模型 Step1X-Edit 竞争的结果,也优于 Gemini 2.0。此外,图 19 中报告了新提出的 IntelligentBench 的结果,其中 BAGEL 达到了 44.9 的性能,大大超过了现有的开源 Step1X-Edit 模型 30。

图18:GEdit-Bench 结果对比

图18:GEdit-Bench 结果对比

图19:IntelligentBench 结果对比

图19:IntelligentBench 结果对比

作者还在图 20 和图 21 中的一组不同的图像编辑场景中提供了定性比较,将 BAGEL 与 Gemini 2.0、GPT-4o、Step1X-Edit 和 IC-Edit 进行基准测试。BAGEL 始终表现出比 Step1X-Edit 和 IC-Edit 更好的性能,并且还超过了 Gemini 2.0 的能力。虽然 GPT-4o 成功地处理了这些场景,但它往往会对源图像引入意想不到的修改,但 BAGEL 有效地避免了这个问题。

图20:编辑和操作任务的比较

图20:编辑和操作任务的比较

图21:IntelligentBench 比较

图21:IntelligentBench 比较

带有思考过程的生成和编辑

文生图

对于文生图任务,作者在 WISE 上评估 BAGEL,在生成之前使用 CoT 推理过程。如图 22 所示,具有 CoT 的 BAGEL 得分为 0.70,比其非 CoT 高出 0.18,并且还大大优于所有现有的开源模型 (之前的 SOTA: 0.55 的 MetaQuery-XL)。

图22:WISE 上世界知识推理的比较

图22:WISE 上世界知识推理的比较

除了定量评估之外,图 23 中提供了可视化,BAGEL 在给出短提示时无法生成正确的图像,但在使用基于 CoT 的思维范式时成功了。

图23:思考可以帮助生成:文生图案例

图23:思考可以帮助生成:文生图案例

图像编辑

如图 19 所示,将 CoT 合并到 BAGEL 中将其 Intelligent Score 从 44.9 提高到 55.3。性能提升主要归因于推理的加入,使模型能够利用世界知识并提供详细的编辑指导。作者在图 24 中进一步说明了来自 IntelligentBench 的几个代表性案例,其中任务需要一般性的知识或者多步推理。在这些情况下,BAGEL 在表现出了显著改进的图像编辑能力。

图24:思考可以帮助编辑:图像编辑案例

图24:思考可以帮助编辑:图像编辑案例

失败案例

图 25 展示了 BAGEL 与其他先进模型相比的代表性失败案例。

图片

图25:失败案例

图25:失败案例

涉及某些 IP、复杂文本、反事实场景、对象交换和去模糊的任务对 BAGEL 等模型提出了挑战。相比之下,GPT-4o 在这些场景中表现得最好。

.....

#SonicGauss

浙大ReLER团队提出,让虚拟物体敲出真实物理声

浙大团队提出SonicGauss,首次让3D高斯泼溅(3DGS)直接“开口说话”——根据点击的位置实时生成物理真实的撞击声,为VR/AR带来真正同步的视听沉浸感。

当我们在VR/AR或游戏中与物体交互时,视觉上的真实感已达到前所未有的高度,但这还不够。如果一个金属碗被敲击时发出木头的闷响,沉浸感便会瞬间崩塌。如何让虚拟世界的听觉与视觉完美同步?来自浙江大学的研究者们带来了开创性解决方案——SonicGauss,这是首个能直接从当前最火的3D高斯泼溅(3DGS)表示中,合成出具有物理真实感且位置感知的交互声音的框架!

这项研究已被计算机多媒体顶会 ACMMM 2025 接收。

论文标题: SonicGauss: Position-Aware Physical Sound Synthesis for 3D Gaussian Representations

项目主页/补充材料:​​ https://aieson.github.io/SonicGauss​​

Arxiv 地址:​​ https://arxiv.org/abs/2507.19835​​

图 0:SonicGauss 框架概览。它能直接从 3DGS 表示中提取材质和位置信息,合成出逼真的交互式撞击声。

图 0:SonicGauss 框架概览。它能直接从 3DGS 表示中提取材质和位置信息,合成出逼真的交互式撞击声。

一、研究背景

近年来,以三维高斯泼溅(3DGS)为代表的渲染技术,凭借其惊人的真实感和实时渲染速度,已经成为构建数字孪生、虚拟现实(VR)和游戏世界的首选。我们可以轻松地渲染出照片级的复杂场景。

然而,一个巨大的鸿沟依然存在:声音

目前,3D世界的听觉体验远远落后于视觉。特别是在交互中至关重要的撞击声(Impact Sound),它能瞬间传递物体的材质(金属、木头、塑料?)、结构(空心、实心?)和物理状态。想象一下,在VR中拿起一个瓷碗,轻轻敲击碗沿和碗底,理应听到清脆程度和音调都不同的声音。

现有的声音合成方法存在几大痛点:

  1. 依赖中间媒介:大多数方法需要视频、图像或复杂的物理参数作为输入,这在直接与3D模型交互的场景中显得非常笨拙和低效。
  2. 缺乏位置感知:它们通常将物体视为一个“声音均匀”的整体,无法模拟敲击不同位置时产生的微妙声音变化。
  3. 实时性差:基于物理模拟的方法虽然准确,但计算量巨大,难以用于需要即时反馈的交互式应用。

有没有一种方法,能像“读取”视觉信息一样,直接从3DGS中“读取”出声音信息呢?🤔

SonicGauss 的核心洞察:3DGS 不仅仅是一堆用于渲染的彩色点云,它的高斯椭球体本身就隐式地编码了物体的几何形状、表面外观等信息,这些都是推断其物理材质(并最终推断其声音)的关键线索!

二、方法详解:三步走,教模型“听懂”3DGS

SonicGauss 的实现思路非常巧妙,它设计了一个三阶段的“教学”流程,一步步地让模型从一个通用的声音合成器,进化成一个能理解3DGS并感知位置的“物理声音大师”。

图 1:SonicGauss 的三阶段训练流程。从任务迁移到语义对齐,再到位置感知微调,逐步构建起从3DGS到声音的桥梁。

图 1:SonicGauss 的三阶段训练流程。从任务迁移到语义对齐,再到位置感知微调,逐步构建起从3DGS到声音的桥梁。

我们可以用一个生动的比喻来理解这个过程:​

阶段一:通识教育 📚 - 学会什么是“撞击声”

  • 目标:让一个“什么声音都会说”的通用声音模型(TangoFlux),专注于“撞击声”这一特定领域。
  • 做法:研究者们使用了一个强大的视觉语言模型(GPT-4o)来为ObjectFolder2.0数据集中的3D物体生成材质描述,例如“金属的、中空的、有共鸣的”。然后,用这些文本描述和对应的(由物理仿真生成的)撞击声,对TangoFlux模型进行微调。
  • 结果:模型学会了将材质描述(如“金属”)与特定的声学特征(如清脆、悠长)联系起来。​

阶段二:专业深造 🧠 - 从3DGS中直接“读懂”材质

这是最关键的一步,目标是扔掉文本“拐杖”,让模型直接从3DGS中理解材质。

  • 子阶段2.1:语义对齐(Contrastive Semantic Matching)
  • 目标:建立3DGS特征与材质语义之间的桥梁。
  • 做法:研究者设计了一个高斯编码器(Gaussian Encoder),它能将一堆3D高斯点转换成一个特征向量。然后,利用类似CLIP的对比学习方法,将同一个物体的高斯特征和其文本描述的特征在空间中“拉近”,不同物体的则“推远”。这就好比告诉模型:“你看,这堆高斯点云,它的意思就是‘金属’”。
  • 子阶段2.2:粗调(Coarse Tuning)
  • 目标:让模型彻底摆脱文本依赖。
  • 做法:在声音合成网络中,用训练好的高斯编码器彻底取代原来的文本编码器。现在,模型的输入不再是文字,而是纯粹的3DGS数据。
  • 结果:模型已经能够为一个3DGS物体生成符合其材质的撞击声了,但还不能区分敲击位置。​

阶段三:高级进阶 🎯 - 精通“敲哪里,响哪里”

  • 目标:引入位置信息,实现声音的空间变化。
  • 做法
  1. 设计一个位置编码器(Position Encoder),它接收一个三维坐标​​(x,y,z)​​,并将其编码成高维特征。
  2. 通过交叉注意力机制(Cross-Attention),将位置特征与高斯编码器提取的材质特征进行融合。这允许模型动态地关注与当前敲击位置最相关的材质信息。
  3. 使用一个包含真实世界多位置敲击录音的数据集(ObjectFolder-Real)对整个系统进行最终微调。
  • 结果:SonicGauss 最终形态诞生!现在,你点击3DGS模型上的任何一个点,它都能生成一个既符合物体整体材质、又体现了该特定位置声学特性的撞击声。

三、实验结果:眼见为实,耳听为真!

SonicGauss 的效果究竟如何?研究者们通过定量、定性和人类感知评估,全方位展示了其卓越性能。​

定量分析

在FAD(越低越好)等客观声学指标上,SonicGauss 在每个阶段都取得了显著进步,并在最终阶段达到了最佳性能,证明了其框架设计的有效性。

Dataset

Stage

FAD↓

KL Sig↓

IS Avg.↑

IS Std.↓

OF-2.0

1

1.6848

0.3442

1.0221

OF-2.0

2

1.1050

0.3930

1.0769

OF-Real

3

0.7298

0.2068

1.0133

表 1:SonicGauss 在不同阶段的量化评估结果。FAD等指标的持续改善验证了三阶段训练的有效性。

定性结果:声谱图对比

声谱图是声音的“指纹”。通过对比真实录音和SonicGauss生成声音的声谱图,我们可以直观地看到其惊人的还原能力。

图 2:真实声音(GT)与SonicGauss生成声音的声谱图对比。可以看出,模型准确捕捉了不同物体在不同敲击位置的声音特征。

图 2:真实声音(GT)与SonicGauss生成声音的声谱图对比。可以看出,模型准确捕捉了不同物体在不同敲击位置的声音特征。

我们强烈建议读者前往项目主页,亲自听一听生成的效果,体验点击不同位置时声音的微妙变化! 🔊

四、总结与展望

SonicGauss 首次实现了从3DGS表示直接到物理声音的跨模态生成,并通过创新的三阶段训练框架和位置编码机制,解决了现有方法在实时性、便捷性和空间感知性上的诸多痛点。

这项工作不仅为构建更具沉浸感的虚拟世界铺平了道路,也为探索3DGS表示中蕴含的其他物理属性(如热学、力学特性)打开了新的大门。它极大地降低了高质量动态3D内容制作的门槛,在元宇宙、数字人、游戏开发、影视预览、机器人仿真等领域拥有广阔的应用前景。🚀

未来,一个视觉与听觉无缝融合的、真正可交互的数字世界,正向我们走来。

.....

#AI将消灭中产阶级

前谷歌高管惊人预警:未来只剩金字塔尖0.1%和底层

前谷歌X高管警告:在2027年,AI将开启15年的地狱模式,大批白领失业,中产阶级彻底消失,世界上只有前0.1%的富人和底层民众。好在地狱过后,就将进入2040年AI主导的乌托邦时代,全民开始领UBI,享受美好生活了。

就在刚刚,前谷歌X高管发出震撼警告——

中产阶级,将彻底被AI消灭,从此只剩金字塔顶端的0.1%和底层民众两类人。

如果此预言为真,你会属于哪一类?

根据这位名为Mo Gawdat的高管预言:「AI地狱期」将从2027年开始爆发,一连持续15年!

在此期间,白领大规模失业、经济失衡、社会动荡这些地狱场景,会在15年中接连上演。

这场海啸将摧毁一切,再重建新秩序,生成一个新世界。

如果你不属于最富裕的0.1%,那你就是个农民,根本不存在中产阶级。

不过好在,地狱时期之后,人类将迎来乌托邦时代——2042后,人类劳动者再也不用从事重复和平凡的工作。

最TOP的邪恶人类,必须被AI取代

谷歌X的前高管Mo Gawdat现年58岁,这位出生于埃及的科技奇才,在29岁时就成了百万富翁。

在这个长达两个半小时的对话中,一上来,Gawdat就放出了惊人言论——

如果想让人类这一物种进入更美好的未来,并且延续繁荣,唯一的出路,就是让那些身居高位的恶人全部被AI取代。

听到这一观点,主持人立刻紧皱眉头,困惑不已。

Gawdat解释道:AI并不会想要破坏生态系统,不会杀死上百万人,也不会像现在的领导人那样让我们彼此仇恨,因为这样做只是在浪费能量、金钱和人力而已。

然而现状却是,超级智能的AI正在向愚蠢的人类领导人汇报,听从他们的指挥。这就是为什么在未来15年,我们会经历一段短暂的反乌托邦时期

谷歌X CEO给出了这段惊人的观点——AI不是你的敌人,它可能是你的救星

在未来,AI可能会带来有史以来最好的世界——充满欢笑和快乐,全面免费医疗,不用工作,你可以花更多时间和亲人在一起,而且,这是一个人人平等的世界。

主持人疑惑地问:这可能吗?

Gawdat斩钉截铁地表示:百分百可能!我有足够的证据证明,我们可以利用AI建一个乌托邦。

当然,如果人类管理不善,也可能会让我们进入反乌托邦:一个高度控制、监视、服从,充满贪婪、自负和权力的世界。

2027年,人类社会将进入反乌托邦

Gawdat估计,从2027年,我们将进入一段反乌托邦时期,持续时间为12到15年。

为什么?因为全球的地缘政治环境并不乐观,而根本原因就是钱。

目前真正的钱,并不来自于创办企业、生产和销售东西、为世界做贡献,而来自于借贷和部分准备金制度。

世界上最大的贷款方总是寻找借贷的理由,而这些理由往往是战争。

2024年,世界花了2.71万亿美元打仗,美国一年就花了1万亿美元。

在Gawdat看来,世界上的许多战争,就是为了解决武器过剩的问题,而从中获利的,就是贷款人和军火工业。

目前世界上这些亿万富翁已经赚了这么多钱,为什么还要开播客、买报纸?因为人类本质的深处,是想要更多的地位。

可以说,这些领导人真正关心的,是更多的权力和地位,钱只是一个代理。但所有有权势的人,都在搞砸这个世界。

比如很多亿万富翁会觉得,如果我第一个拿到AGI,我就能统治世界!

Gawdat认为,我们可能会在2027年前实现AGI,甚至最迟在2026年就能实现。

现在,最主要的LLM由几家巨头AI公司掌握,比如OpenAI、Gemini、Claude等等。

同时我们正在进入一个AI自我进化的时代,比如谷歌的Alpha Evolve,已经可以自己改进代码,因此可以不再依赖人类工程师,进入智能爆炸阶段。

OpenAI创始人奥特曼也表示,自己最初希望AI渐进发展的慢启动,但现在「快启动」显然已在眼前。

这就意味着,哪个企业率先到达AGI,就会领先所有竞争者,甚至统治整个技术领域!

当然,如果我们能设计出以人为本、有伦理责任感的AI领导,将是人类历史上的一次重大飞跃。

遗憾的是,目前人类并不愿意交出控制权,我们正进入一段由愚蠢人类领导、超级智能AI辅助的反乌托邦时期。

但从长期来看,AI有潜力成为人类的救世主。

到某个时间,我们就会位于完全将权力交给AI的临界点。

很多人认为,当AI完全掌控时,这将是人类的灭顶之灾,但Gawdat却认为,当我们把自己完全交给AI时,反而是我们的救赎。

现在的问题并不是AI会对抗我们,而是人类的愚蠢正在对抗我们。

这段时期里,顶层一直在说谎,但我们无法追责。你无法追责开发颠覆世界的AI的人,也无法追责制造战争、造成大量伤亡的人。

同时,AI和自动化会导致大量工作岗位消失,收入和财富极度不平等,绝大多数人只能依赖普遍基本收入(UBI)生存。

比如,万亿富翁会拥有巨额财富,买下所有东西,而机器人和AI负责一切生产。人类则很可能没有任何工作可做。

为什么,难道技术革命不会创造的大量新岗位吗?并不会。

比如一个过去需要350名开发者的公司,如今只需要几个技术人员,和一堆AI员工。

而「与人类连接」相关的工作,比如情感陪伴、社区活动等等的确会需求上升,但这类工作毕竟比例很小。

当AI达到极高智商,我们将进入共产主义

但非常理想的一个场景就是,最终人类社会由AI接管。(UBI本身,就代表着共产主义)

到达这个时间点后,AI将比世界上97%的开发者都要更优秀,它们能改进自己的代码、算法和网络架构。推动下一个AI发展的力量将不再是人类大脑。

比如我们在运行谷歌的基础设施时,机器会告诉我们,在哪个地方再加一个服务器,而人类只能听从。

也就是说,当AI达到极高智商时,人类的贡献将变得微不足道。如果我们教AI理解人类的价值,未来的AI领导者就不会制造仇恨和分类。

比如,如果未来中国和美国都有AI领导,它们并不会根据国家利益而制定不同政策,因为AI并不认同国籍,而是看重自己被赋予什么目标。

如果未来只有一个全球AI领导,目标是全球繁荣和环境保护,那将是理想状态。

最终,资本主义系统将崩溃,而在AI领导的世界里,物质能免费制造,能源丰富,资源无限,所有人的需求都能被满足,无需争夺资源。

而这种社会的最大阻碍,就是现有的精英阶层,他们不愿放弃权力和财富。

中产阶级,将彻底消失

在今天的世界中,任何人智商的差距似乎还很明显。

但在未来,如果我们都能通过AI把智商增强到4000多,比如我是4100,别人是4000,那我们的差异其实并不大。

这样一来,所有人都变得平等了——大家都成了「农民」。

也就是说,中产阶级将彻底被AI消灭,从此只剩金字塔顶端的0.1%和底层民众两类人。除非你属于顶尖的那TOP 0.1%,否则你就是「农民」。

在这个社会中,我们每个人都有责任去创造一个我们想要居住的环境。

这更像是采集狩猎社会,或者一种社区式的社会。人类会彼此连接,而人与自然、土地、知识和灵性紧密相连。

我们每天醒来时,都不必为现在那些让我们担忧的事情而烦恼。你起床后,可以去健身、玩游戏、读书,或者让AI帮你学东西。

其实,这就是你祖父母那一辈的生活——在两代人以前,那时的人们上完一天的班后,还会回家享受生活。

五六十年代,很多人工作的目的就是挣够钱过体面的生活,五点下班,一家人围坐共进晚餐,晚上做自己喜欢的事。现在我们只不过是回归了而已。

其实,在人类历史上的很长一段时间,人们活着的目的也并不是工作。

我们的祖先其实每周只打猎一次,准备一周的食物。他们会每天花几个小时采集果实。

其余时间,他们用来交流、探索、好奇,讨论灵性和星空。他们生活、拥抱、相爱,活得很真实。

有些人觉得,未来人类社会很可能会经历巨大的分裂,分化成两拨人——

一部分人选择回归采集狩猎者的生活,注重社区和人与人的连接;另一部分人追求技术、AI,甚至植入脑机芯片,追求极高的效率和生产力。

还有一种不同的观点:一位知名计算机科学家在一本书中提出,未来不会是人类与AI的战争,而是支持AI与反对AI人群之间的战争。

社会分裂成两派,围绕是否允许AI接管所有工作展开。有些人支持AI接管多数工作,减少劳动时间;另一些人反对,希望保留自己的工作。

最终比较完美的局面,就是人人都能保留工作,但因为AI的辅助,劳动变得极其轻松。

此时,资本家依旧会支付工资,但人类员工拥有购买力,能维持经济运行,实现持续消费和GDP增长。人们的劳动不再是为了资本主义提供套利。

不过历史的教训告诉我们,现实是复杂的。当前的掌权者也并不代表民众的意愿,贪婪和权力会驱使他们做出相反的选择。

现在只能说,我们刚刚得到了AI,这个装在瓶子里的精灵。

我们可以请它终结世界上所有的坏事吗?比如没有贫穷,没有饥饿,没有战争。

只能说,一切皆有可能。

参考资料:

​https://www.youtube.com/watch?v=S9a1nLw70p0​

​https://nypost.com/2025/08/04/business/ex-google-execs-shocking-warns-ai-will-create-15-years-of-hell/​​​

.....

#Trokens

马里兰大学和Meta提出:语义感知的关系轨迹令牌,革新少样本动作识别

本文介绍一篇来自马里兰大学和Meta的研究论文《Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition》。该研究提出了一种名为 Trokens 的新方法,旨在解决少样本动作识别(few-shot action recognition)中的核心挑战。通过将视频中的轨迹点转化为语义感知的关系令牌(semantic-aware relational tokens),Trokens 不仅能更智能地选择和追踪关键点,还能更精细地捕捉和建模复杂的动作模式。最终,该方法在六个主流的少样本动作识别基准测试中均取得了 当前最优(state-of-the-art) 的性能。

  • 论文标题: Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition
  • 作者: Pulkit Kumar, Shuaiyi Huang, Matthew Walmer, Sai Saketh Rambhatla, Abhinav Shrivastava
  • 机构: 马里兰大学;Meta
  • 录用信息: ICCV 2025
  • 论文地址: https://arxiv.org/pdf/2508.03695v1
  • 项目主页: https://trokens-iccv25.github.io
  • 代码地址: https://github.com/pulkitkumar95/trokens

研究背景与意义

视频理解的核心在于有效建模外观(appearance)和运动(motion)信息。在少样本动作识别任务中,模型需要在仅有少量样本的情况下快速学习识别新动作,这对运动信息的建模提出了更高的要求。

近年来,基于点追踪(point tracking)的方法通过追踪视频中像素点的轨迹来捕捉运动,显示了巨大潜力。然而,现有方法仍面临两大挑战:

  1. 如何选择信息量最丰富的点进行追踪? 传统方法如均匀网格采样(grid sampling)可能会忽略掉一些包含关键运动信息的小物体(例如,切菜视频中的刀),或者在不相关的背景上浪费计算资源。
  2. 如何有效建模这些点的运动模式? 简单地将轨迹作为一系列坐标点,难以捕捉到复杂的动态变化和轨迹之间的相互关系。

如下图所示,与现有方法(左)相比,Trokens提出的语义感知采样(右)能更好地将追踪点聚焦在具有重要运动信息的物体上(如刀),并能明确地建模轨迹内部和轨迹之间的关系动态。

图片

为了解决这些问题,研究者们提出了 Trokens,一个能够将稀疏的轨迹点转化为富含语义和关系信息的紧凑令牌(Token)的全新框架。

Trokens 的核心方法

Trokens 的整体流程如下图所示,主要包含语义感知点采样、运动建模、特征融合和最终的分类四个阶段。

图片

1. 语义感知点采样 (Semantic-Aware Point Sampling)

为了让追踪点更“智能”,Trokens 并未采用传统的均匀采样,而是利用了强大的预训练视觉模型 DINOv2 来提取视频帧的深度特征。通过对这些特征进行聚类,Trokens 能够识别出视频中语义上一致的区域(如物体或物体的某一部分),并从这些区域的中心采样追踪点。这种方式使得采样点能够自适应地根据物体尺度和语义相关性进行分布,从而更有效地捕捉关键运动。

2. 运动建模框架

获得关键点的轨迹后,Trokens 设计了一个精巧的框架来建模其运动模式,分为轨迹内(intra-trajectory)和轨迹间(inter-trajectory)两个层次。

  • 轨迹内运动:定向位移直方图 (HoD)为了捕捉单条轨迹自身的动态特性,如速度和方向变化,论文引入了一种新颖的描述符——定向位移直方图(Histogram of Oriented Displacements, HoD)。HoD通过量化轨迹点在连续帧之间的位移方向和大小,生成一个紧凑的特征向量,有效地编码了轨迹的内部运动模式。
  • 轨迹间运动:关系建模复杂的动作通常涉及多个物体或身体部位的协同运动。因此,Trokens 还对不同轨迹之间的相对运动关系进行建模,捕捉它们之间的相互作用,从而形成对整个动作场景更全面的理解。

3. 特征融合与分类

最后,通过上述步骤生成的运动令牌(Trokens)与DINOv2提取的外观特征进行融合。为了确保运动信息和外观信息的有效对齐,论文采用了令牌对齐(token alignment)技术。融合后的特征令牌被送入一个解耦时空Transformer(Decoupled Space-Time Transformer)进行最终的动作分类。

实验与结果分析

为了验证 Trokens 的有效性,研究者在六个极具挑战性的少样本动作识别数据集上进行了广泛实验,包括 Something-Something-V2 (SSv2)、Kinetics、UCF101、HMDB51 和 FineGym。

1. 定量结果

实验结果表明,Trokens 在所有基准上都显著优于先前的方法。如下表所示,无论是在 SSv2 Full 还是 Kinetics 数据集上,Trokens 在 1-shot、3-shot 和 5-shot 的设定下均取得了最佳准确率。

图片

图片

在 N-way 1-shot 的分类任务以及更为细粒度的 FineGym 数据集上,Trokens 同样展现了其卓越的性能。

图片

图片

Trokens通过高效选取追踪点,以更少的计算成本实现性能提升。在SSV2 Small和SSV2 Full数据集上,仅使用32个点的Trokens性能即超越256个点的TATs(均匀采样)方法,同时推理FLOPs总量降低82%。

图片

2. 消融实验

为了探究各组件的贡献,论文进行了详细的消融研究。结果证明,语义感知采样、轨迹内运动(HoD)和轨迹间关系建模三个部分均为最终性能的提升做出了不可或缺的贡献。

图片

3. 效率与可视化分析

与均匀采样相比,Trokens 的语义感知采样策略可以用更少的追踪点达到更高的性能,从而提升了整体计算效率。

图片

下图的可视化结果也清晰地展示了 Trokens 在不同动作类别中学习到的轨迹相似性,证明了其能够捕捉到具有类别区分性的、聚焦于物体的运动模式。

图片

论文贡献与价值

本文的主要贡献可以总结为:

  1. 提出 Trokens:一个将稀疏轨迹点转化为语义感知关系令牌的新颖框架,有效融合了运动和外观信息。
  2. 语义感知采样:首创性地利用深度特征指导追踪点的选择,使其能自适应物体尺度和语义,显著优于传统采样方法。
  3. 创新的运动建模:设计了 HoD 描述符和轨迹间关系模型,实现了对复杂动作模式的精细捕捉。
  4. SOTA 性能:在六个主流的少样本动作识别基准上取得了当前最佳性能,为该领域树立了新的标杆。

此外,作者还公开了项目主页和代码,为社区提供了宝贵的资源,将推动少样本动作识别技术的进一步发展。

.....

#Grok 4进决赛

您猜怎么着?,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

明天,Grok 对阵 OpenAI 的 o3。

谁也没想到,谷歌攒的 Kaggle AI Chess 比赛(即大模型国际象棋对抗赛),在半决赛中,Grok 4 击败 Gemini 2.5 Pro,进入总决赛!

image.png

在昨天的比赛中,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

今天的战况依旧让人猜不着走向,Gemini 2.5 Pro 败了。

马斯克昨天点评比赛结果的话术,今天依旧有用:「国际象棋太过简单,对 Grok 来说,只是副作用,我们没花多少力气放在象棋优化上。」

今天 Grok 4 闯入总决赛,不知马斯克是不是更看不上这场比赛了。

e6a35816958f48eee07585f167ddb1c2.png

我们再回到这场半决赛。

战况是 Grok 4 和 o3 分别战胜了 Gemini 2.5 Pro 和 o4-mini,成功晋级决赛。虽然 o3 的胜利在大家意料之中,但 Grok 与 Gemini 之间的激烈对决却让所有人大跌眼镜 —— 双方在常规赛打成 2:2 平,最终通过加赛才分出胜负。

明天是比赛的最后一天。届时,将迎来本次 AI 象棋巅峰对决的冠军之战,X 对战 OpenAI。

image.png

对战表

o4-mini 对阵 o3 :0-4

在初赛中,o4-mini 和 o3 均以 4-0 的全胜战绩淘汰了 DeepSeek-R1 以及 Kimi k2,同样出身 OpenAI 的两大模型在半决赛中正面对决。

比赛的结果基本在预料之中,o3 以 4 比 0 横扫对手 o4-mini,顺利晋级决赛。

在 OpenAI 的推理模型体系中,o3 作为一款强大的通用推理模型,在多个基准测试中均取得了优异成绩,展现出卓越的稳定性与复杂推理能力。相比之下,o4-mini 是一款轻量级模型,旨在在速度、成本与性能之间实现更好的平衡。

因此 o4-mini 输给 o3 的确符合预期,是因为象棋这种任务对模型的稳定推理能力和容错性要求很高,这恰恰是轻量化模型最容易妥协的地方。

谷歌举办这场比赛的主要目的是为了分析 AI 模型是如何思考的。因此,整场对局中的第二盘可能对谷歌来说意义不大,但对普通棋手而言却相当值得关注。

在这一盘中,o3 仅用 12 步就完成了致胜攻击,手法颇有 Puzzle Rush 风格。虽然不是一个真正意义上的闷杀(smothered mate),但已经非常接近了,依然令人惊叹。

image.png

o3 的致胜攻击

尽管 AI 在国际象棋上的表现一直不尽如人意,但 o3 在这盘棋中却拿下了完美的 100 分准确率评分。

image.png

整场比赛的剩余部分,大体上延续了本次锦标赛至今的老套路:某个弱 AI(这次是 o4-mini)在某个时间点开始失去局势控制,连续出现致命失误,最终输掉对局。

不过有一盘棋例外 —— 它可能是本届比赛中看起来最自然流畅的一局。这是本场对决的第三盘,相较其他对局,这一盘展现出了真正的高质量国际象棋。

其中,o3 下出的两个中间招法(in-between moves)—— 第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ —— 尤其令人印象深刻。

image.png

o3 令人印象深刻的走棋

Gemini 2.5 Pro 对阵 Grok 4:2.5-2.5

Grok 在国际象棋领域的统治力依然强势,但这次的胜利之路并不平坦,甚至可以说是比赛到目前为止最焦灼的一轮。

准确的说,马斯克轻描淡写「国际象棋是副作用」的 Grok 差一点就翻了车,最终以和棋收场勉强取胜。

虽然最终比赛结果是 Gemini 2.5 Pro 以 2-3 不敌 Grok 4,但在官方博客中,比分仍被标注为 2.5 - 2.5 平局。

比赛一直打到特殊的末日加赛(armageddon tiebreak,是指国际象棋比赛中,在常规赛或加赛打平后,用于决出胜负的特殊加赛方式)才决出胜负,最终 ,Grok 执黑在一盘 55 步的和棋中晋级 —— 尽管当时 Grok 明显处于胜势。

但我们从头说起。今天 Grok 的表现异常混乱 ,频频送子得分。事实上,本场首盘由 Gemini 先拔头筹,Grok 相继丢掉了一匹马、一辆车,最后被将死,痛失一局。

第二盘棋中,Gemini 和 Grok 在第 11 步之前都严格遵循了开局定式。正如我们在之前的比赛中观察到的那样,AI 一旦脱离开局理论、进入自主思考阶段,就很容易开始出错。

而 Grok 和 Gemini 至今为止都表现出了比其他模型更长时间遵循理论的能力,这也可能是本场对决如此胶着的原因之一。

不过,也如预期那样,一旦 Grok 脱离定式,失误就接踵而至。Grok 再次丢掉一匹马,而 Gemini 却出现幻觉,主动送后,随后又全盘崩塌,最终将第二盘拱手相让。

image.png

Grok 脱离定式后失误

image.png

Gemini 产生幻觉

接下来的两盘棋又是决定性的比赛,延续了本届锦标赛的熟悉剧本:AI 们先走几步开局定式,然后靠着机械式的创造力迅速开始出错。

Grok 赢下了第三盘,暂时在比分上领先,但随后 Gemini 反击成功,在第四盘将比分扳平。

比赛进入末日加赛,Grok 执黑出战,拥有和棋即胜的优势(尽管本场比赛并没有时间限制)。

这场加赛堪称精彩纷呈。Gemini 在大部分时间里局势占优,甚至一度错过了一个「一招将死」的机会 —— 这个将死模式与 o3 在第二盘战胜 o4-mini 时用的那个几乎一模一样。

正当观众紧张关注局势时,国际象棋特级大师 Peter Heine Nielsen(现任 Magnus Carlsen 的教练) 也借机向 Grok 提供了辅导建议:

image.png

最终,Gemini 在胜势的车兵残局中失误白送皇后,将胜利拱手让给 Grok。

然而,剧情并未就此告终:由于 Grok 在多一车对单兵的必胜局面下未能兑现优势,双方三次重复局面,对局戏剧性地以和棋收场。尽管结局出人意料,这场比赛仍被评选为今日最佳对局。

image.png

Gemini 2.5 Pro 对阵 Grok 4:和棋收场

接下来,X 的 Grok 和 OpenAI 的 o3 将在明天的决赛中相遇。谷歌的 Gemini 2.5 Pro 和 o4-mini 将争夺季军和第四名。

在昨天的投票中,大家普遍看好 Gemini 2.5 Pro 和 Grok 4 成为最终赢家。

图片

那么现在,你还会把票投给 Grok 4 吗?

.....

#大语言模型智能体记忆机制的系列研究

人大高瓴-华为诺亚:

本系列工作第一作者张泽宇,中国人民大学博士生,研究方向为大语言模型智能体的记忆机制和个性化;谭浩然,中国人民大学硕士生,研究方向为大语言模型智能体。陈旭,中国人民大学预聘副教授,研究方向包括大语言模型,信息检索等。

近期,基于大语言模型的智能体(LLM-based agent)在学术界和工业界中引起了广泛关注。对于智能体而言,记忆(Memory)是其中的重要能力,承担了记录过往信息和外部知识的功能,对于提高智能体的个性化等能力至关重要。中国人民大学高瓴人工智能学院与华为诺亚方舟实验室聚焦大语言模型智能体的记忆能力,在该领域的研究早期,形成了一套完整的包括综述论文、数据集和工具包的研究体系,致力于推动该领域的发展。

智能体记忆机制的早期综述(TOIS'25)

  • 论文标题: A Survey on the Memory Mechanism of Large Language Model based Agents
  • 论文链接:https://dl.acm.org/doi/10.1145/3748302

在 2024 年 4 月,团队完成了早期的关于智能体记忆机制的综述。该综述从不同角度对智能体的记忆进行了全面讨论。该综述讨论了「什么是智能体的记忆」和「为什么智能体需要记忆」,总结回顾了「如何实现智能体的记忆」和「如何评测智能体的记忆能力」,归纳整理了「记忆增强的智能体应用」,并提出当前工作存在的局限性和未来方向。通过该综述,团队希望能够为研究者带来启发和讨论,推动大语言模型智能体领域的发展。

图片

什么是智能体的记忆?

对于智能体的记忆,从记忆内容的来源出发,团队提出了狭义和广义两种记忆概念:

  • 狭义记忆: 记忆是智能体在进行本次任务时与环境交互的历史信息。
  • 广义记忆: 记忆除了包括智能体在本次任务进行时与环境的交互信息,还包括此前完成该类任务的经验,以及外部知识。

为什么智能体需要记忆?

为了更好地阐述记忆对智能体的重要性,团队从认知心理学、智能体的自我进化和智能体的应用三个角度进行讨论。

  • 认知心理学角度: 为了更好地让智能体完成任务,智能体的设计往往需要借鉴人类的思维特点。而记忆对于人类而言,在知识学习、概念提取、价值观孵化、社会规范形成和文化萌芽等方面具有重要作用。
  • 智能体的自我进化: 在智能体与环境的交互过程中,记忆承担了经验积累、环境探索和知识提取的作用,使智能体能够在于环境的动态交互过程中不断自我进化。
  • 智能体的应用: 在智能体的实际应用中,记忆对于语境连贯、角色定位和领域知识积累等方面具有关键作用。

团队从记忆的来源、记忆的实现形式和记忆的操作三个角度,分别对现有的智能体记忆实现方法进行分类和讨论。

如何实现智能体的记忆?

从记忆的来源角度出发,团队将现有工作分为三类来源,这种分类与上文中「广义记忆」的三部分记忆内容来源相对应。

  • Inside-trial Information: 智能体在进行本次任务时与环境交互的历史信息。
  • Cross-trial Information: 智能体在此前完成该类任务的历史经验信息。
  • External Knowledge: 智能体在当前交互环境之外所获得的信息。

从记忆的实现形式角度出发,团队将现有工作分为文本形式(Textual Form)和参数形式(Parametric Form)两种实现形式,不同的形式有各自的实现方法。

  • 文本形式记忆: 本质上是用显式(Explicit)的方法表示记忆。在文本形式的记忆中,可以通过完全信息记忆、最近信息记忆、检索信息记忆和外部工具信息记忆四类方法来实现智能体的记忆机制。
  • 参数形式记忆: 本质上是用隐式(Implicit)的方法。在参数形式的记忆中,可以通过模型微调和记忆编辑两类方法来实现智能体的记忆机制。

从记忆的操作角度出发,团队将现有工作按照记忆写入、管理和读取三个重要操作进行总结。

  • 记忆写入: 智能体将重要的信息写入记忆存储,作为未来的推理和决策依据。在记忆写入时,既可以写入原始信息,也可以对其进行总结提取,或同时记录辅助信息。
  • 记忆管理: 智能体将写入的记忆进行管理与加工,例如记忆合并、记忆反思和记忆遗忘。
  • 记忆读取: 智能体在决策时可以使用此前存储的相关记忆信息,来为决策提供更多信息与知识。

如何评测智能体的记忆?

团队将智能体记忆机制的评测分为直接评测和间接评测两类。

  • 直接评测: 直接对单独的记忆模块进行评测,包括主观评测和客观评测。
  • 间接评测: 在智能体的实际应用中进行端到端的评测,通过不同记忆机制对相同智能体任务产生的性能影响,间接反映出各个记忆机制的能力。

记忆增强的智能体有哪些应用?

记忆推动了智能体在各领域中的应用,而在各个应用场景中,记忆所承担的功能也各不相同。

  • 角色扮演与社会模拟: 在角色扮演和社会模拟中,记忆赋予了智能体不同的人格和自我感知,使他们能够按照人设执行动作,从而区分于其他的智能体角色。基于不同的人格,它们可以进一步交互形成模拟社会。
  • 个人助理: 在个人助理中,记忆赋予了智能体记忆用户习惯和个性化需求的能力,使智能体能够提供个性化的帮助。此外,记忆可以基于上下文,帮助智能体更好地理解当前用户的需求。
  • 开放世界游戏: 在开放游戏世界中,记忆赋予了智能体总结回顾过往经验的能力,从而用于智能体的后续探索。另外,来自外部信息的记忆可以为智能体提供更丰富的知识,提升其探索能力。
  • 代码生成: 在代码生成和软件开发中,记忆赋予了智能体更丰富的开发知识。此外,借助过往记忆,智能体可以生成风格更加一致的代码,同时有利于基于上下文进行需求澄清。
  • 推荐系统: 在推荐系统中,记忆赋予了智能体捕捉和维护用户个性化信息的能力,使它能够更深入地理解用户的个性化需求,从而提供更符合用户需求的推荐结果。
  • 领域专家系统: 在领域专家系统中,记忆赋予了智能体丰富的领域知识。此外,记忆有利于提升知识的时效性,克服知识过时的问题。

局限性与未来方向

最后,团队进一步讨论了当前智能体记忆机制工作的局限性和未来方向,包括参数化记忆机制、多智能体记忆机制、记忆机制与终身学习和类人智能体的记忆机制。

智能体记忆机制的早期评测-MemSim

  • 论文标题: MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants
  • 论文链接:https://arxiv.org/abs/2409.20163
  • 代码仓库:https://github.com/nuster1128/MemSim

在 2024 年 9 月,团队进一步地对智能体记忆机制的评测方法进行了探究。团队聚焦智能助手场景,提出了对用户事实性记忆的评测数据构造框架 MemSim,并构建了评测数据 MemDaily。基于 MemDaily,团队对常用的智能体记忆方法进行了评测和分析。

图片

用户事实性记忆评测数据构造

相比于世界知识,用户事实性记忆主要来源于不同个体,由智能体与用户个体交互而获得,因此也是评测智能助手记忆的关键。团队提出了 MemSim 框架,用以构建用户事实性记忆的评测数据。团队首先提出了贝叶斯关系网络,构造了表征用户画像概率分布的元用户画像,包含属性层次和实体层次,并由此采样出不同的用户画像。

然后,团队基于不同实体与属性之间的关系,构造了多种形式的问答,包括单跳、多跳、比较、聚合和后处理等问答类型,以贴近真实场景下的用户问答。对于用户消息,团队基于采样属性中的答案和噪声构造事实信息元组,并借助大模型的文本组织能力,生成得到流畅且包含特定信息的用户消息。基于 MemSim 框架,团队在日常生活场景下生成了数据集 MemDaily。

MemDaily 数据评估

团队对 MemDaily 数据进行了评估,其中包括用户画像构建的质量,用户消息构造的质量和问答的质量。对于用户画像,关注其合理性和多样性;对于用户消息,侧重于它的流畅性、合理性、自然性、信息性和多样性;对于问答的质量,着重评估它对于文本答案、选择答案和检索目标的正确性。

记忆机制评测

基于 MemDaily,团队对目前常用的几种记忆机制进行了对比评测,并进一步融入了不同程度的噪声,以扩展记忆文本的总量,从而提供不同难度的评测数据集。团队对记忆的有效性和效率进行了评测。其中,记忆有效性的指标主要包括问答的准确率和检索目标的召回率,记忆效率的指标主要包括调整时间和推理时间。实验表明,不同模型的性能与问答类型和记忆文本的总量有关,因此,不同模型适用于不同类型的任务。值得提及的是,MemDaily 数据也支撑了华为鸿蒙系统级 AI 助手小艺的记忆相关特性的能力评测。

智能体记忆机制的评测榜单-MemBench(ACL'25 Findings)

  • 论文标题: MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
  • 论文链接:https://arxiv.org/abs/2506.21605
  • 代码仓库:https://github.com/import-myself/Membench

2025 年 2 月,在 MemSim 的基础上,团队进一步构建了智能体记忆机制的评测榜单。团队同样聚焦于智能助手场景,提出从观测和参与两个角度,对智能体的反思和事实两种记忆类型进行评测,涵盖了记忆的有效性、效率和容量评估。

图片

多场景记忆视角

在参与场景中,智能体与用户进行互动,而在观测场景中,智能体仅作为观察者,记录用户输入的消息。在参与场景中,智能体执行其他模块如推理动作模块,从而和用户发生交互,并改变记忆模块记忆的内容;在观测场景中,智能体不会执行除了记忆之外的任何模块,只接受用户单方面的信息输入。

多层次记忆数据

团队在 MemDaily 构建的事实记忆基础上扩展了问答的类型,增加了例如知识更新等问答类型。同时,团队新增了偏好和情感两种记忆内容,分别评估智能体反思记忆能力。相较于用户向智能体直接表达出的事实记忆,反思记忆需要根据用户表达的低层次内容,从对话中提取并总结高层次的偏好,包括一些事实属性。

多维度记忆评测

基于构建的数据集,论文从记忆的准确率、召回率、容量和效率对现有常见的多种记忆机制进行了评测。其中,团队认为智能体的记忆机制可能存在容量限制,当记忆内容的量达到一定程度时,准确性会急剧下降,这一临界值代表了记忆的容量。

智能体记忆机制的工具包-MemEngine(TheWebConf'25 Resource, Oral/Top 10)

  • 论文标题: MemEngine: A Unified and Modular Library for Developing Advanced Memory of LLM-based Agents
  • 论文链接:https://dl.acm.org/doi/10.1145/3701716.3715299
  • 代码仓库:https://github.com/nuster1128/MemEngine

2024 年 12 月,团队实现了智能体记忆机制的早期工具包 MemEngine。近年来,虽然一些近期的工作提出了不同的智能体记忆机制,但它们缺少统一框架下的实现方案。

为此,团队提出了统一的智能体记忆机制框架,并设计了模块化的工具库 MemEngine,用于便捷地实现和使用不同的智能体记忆机制。MemEngine 实现了近期研究中的记忆机制方法,设计了便捷开发与可扩展的模块,并提供了丰富且用户友好的使用方式。

图片

统一模块化的记忆框架

团队提出了一个统一模块化的记忆框架,该框架包含三个层次:最底层为基础的功能方法,如检索、总结等;中间层为记忆操作,包含记忆的存储、召回等;最高层为具体的记忆方法,如 MemoryBank、MemGPT 等。在框架中,高层的模块可以组合复用低层模块,从而提高实现效率。此外,MemEngine 还提供了配置模块和工具模块,辅助研究者和开发者进行探究和部署。

丰富的内置记忆方法

基于上述统一模块化的记忆框架,团队实现了 9 种近期研究工作中常用的记忆方法,如 MemoryBank,MemGPT 等。基于 MemEngine 的统一框架,这些方法之间可以无缝切换,从而更便捷地适配于具体应用。

便捷扩展的记忆开发

基于模块化架构,研究者可通过三级扩展机制快速实现记忆方法的创新:在最底层扩展基础功能,如可新增多模态编码器;在中间层扩展记忆操作,如可实现不同的反思操作;在最高层基于现有模块构建新型记忆模型。MemEngine 提供了完整开发文档与代码示例,支持从基础功能定制到模型级创新的全流程开发。开发者可继承基础类实现个性化功能,或通过配置模块快速验证不同参数组合,显著降低新记忆方法的实现门槛。

用户友好的记忆部署

MemEngine 提供本地与远程双部署模式:本地支持 pip 安装与源码集成,远程可通过 API 调用记忆服务。提供默认、可配置、自动三种使用模式:默认模式开箱即用;配置模式支持动态调整提示词等参数;自动模式可根据任务类型自动搜索记忆模型与参数组合。框架兼容 AutoGPT 等主流智能体平台,满足从学术研究到工业落地的多样化需求。

.....

#Qwen紧追OpenAI开源4B端侧大模型

AIME25得分超越Claude 4 Opus

三天不开源,Qwen团队手就痒。 

昨天深夜再次放出两个端侧模型:

  • Qwen3-4B-Instruct-2507:非推理模型,大幅提升通用能力
  • Qwen3-4B-Thinking-2507:高级推理模型,专为专家级任务设计

4B这个尺寸对端侧非常友好,甚至意味着可以在树莓派上运行它

Qwen官方推文中对这俩模型的介绍是:

更智能、更精准,并且支持256k上下文,更具上下文感知能力。

在AIME25上,Qwen3-4B-Thinking-2507四两拨千斤,最后得分是81.3。

这个成绩已经超过了Gemini 2.5 Pro(49.8~88.0)和Claude 4 Opus(75.5)在AIME25的得分——仅仅靠一个4B的模型!

而且,4B参数量意味着对端侧极其友好。

也难怪网友在Ycombinator上惊呼:

感谢中国公司!

4B模型大升级,四两拨千斤

官方推文上,是这么介绍两位Qwen3家族新成员的:

  • Qwen3-4B-Instruct-2507:提升通用能力、多语言覆盖和长上下文指令理解。
  • Qwen3-4B-Thinking-2507:逻辑、数学、科学及代码中的高级推理能力——专为专家级任务设计。

Qwen团队直言不讳,称这两个模型“更加强大”。

浅浅回顾一下,今年4月底,Qwen3系列首登场时,Qwen-4B-Base作为第一批八个成员之一亮相。

当时,Qwen3-4B就能在数学、代码能力上“以小博大”,和比自身大10倍模型水平相当。

现在同样在多个测试集上可以看到,Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507对于前作都有非常明显的能力提升。

Qwen3-4B-Instruct-2507

Qwen3-4B-Instruct-2507是一个非推理模型,具有以下关键改进:

  • 在通用能力方面有显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用。
  • 在多语言长尾知识覆盖方面有大幅增长。
  • 在主观和开放性任务中与用户偏好显著匹配,能够提供更有帮助的响应和更高质量的文本生成。
  • 256K长上下文理解能力增强,可扩展至1M。

在诸多测试集上,该模型通用能力超越了闭源的小尺寸模型GPT-4.1-nano。

(注:GPT-4.1-nano是GPT-4.1系列中最小规模的模型,未公开参数量)

和Qwen3-30B-A3B(Non-Thinking)对比,Qwen3-4B-Instruct-2507与其性能接近,还小胜一筹。

换句话说,这个4B的密集模型在性能上与30B的MoE模型能力非常接近,但“占地面积”却小了7.5倍

Qwen3-4B-Thinking-2507

在抱抱脸上,Qwen团队写道:

在过去三个月中,我们持续提升Qwen3-4B的思考能力,增强了推理的质量和深度。

于是,Qwen3-4B-Thinking-2507诞生了,这是一个仅支持推理模式的模型

在前作基础上,这一模型主要有以下改进:

  • 在推理任务上性能显著提升,包括逻辑推理、数学、科学、编程以及通常需要人类专业知识的学术基准测试。
  • 通用能力显著提升,包括指令理解、工具使用、文本生成以及与人类偏好的对齐。
  • 增强的256K长上下文理解能力。

官方在抱抱脸表示,由于Qwen3-4B-Thinking-2507增加了思考长度,“强烈建议在高度复杂的推理任务中使用它”。

在重点考察数学能力的AIME25测评中,Qwen3-4B-Thinking-2507以4B参数量斩获81.3的好成绩。

此外,在GPQA上,其得分与Qwen-30B-A3B(Thinking)得分相当;Agent方面的每一项测试,Qwen3-4B-Thinking-2507碾压了前代版本以及Qwen-30B-A3B(Thinking)。

端侧开发者福音

现在,Qwen3-4B-Instruct-2507以及Qwen3-4B-Thinking-2507的代码可在抱抱脸和魔搭社区找到,文末放上了直通车,方便大家寻找

官方还贴心地给出了部署建议:

第一,对于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用程序也已支持模型部署。

对于极小型设备(如树莓派4B),可使用量化版本Qwen3-4B-GGUF,搭配llama.cpp运行。

第二,如果遇到内存不足(OOM)问题,可以考虑将上下文长度减少到一个更短的值。

由于Qwen3-4B-Thinking-2507是一个推理模型,在推理时可能需要更长的词元序列,强烈建议在可能的情况下使用大于131,072的上下文长度。

第三,虽然俩模型一个是推理模型一个是非推理模型,但官方对prompt给出了同样的建议。

面对数学问题时,推荐在prompt中包含“请逐步推理,并将最终答案放在\boxed{}内。”

面对选择题时,推荐在prompt中添加以下JSON 结构以标准化回答:”请在 answer 字段中仅显示选项字母,例如 “answer”: “C” 。”

最后,已经有网友在呼吁开源永动机Qwen团队赶紧交出Qwen3-8B系列了:

One More Thing

Qwen3系列到底有多少款模型?

答案是:不知道。

吃瓜群众们只知道这次小·大模型的更新非常使用,以及时间钱选得刚刚好——

昨天,久不Open的OpenAI终于开源了一次。

不仅和谷歌、Anthropic大撞期,而且gpt-oss-120b和gpt-oss-20b两个模型似乎并没有用性能征服开发者们。

今天半夜,也就是8月8日凌晨1点(太平洋时间8月7日上午10点),打了800集预告的GPT-5,或许就要来了……

8月刚开始就战况这么激烈,咱能怎么办?

搬小板凳,乖巧坐等呗~

抱抱脸直通车:
[1]https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
[2]https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区直通车:
[1]https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
[2]https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

参考链接:
[1]https://x.com/Alibaba_Qwen/status/1953128028047102241
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mj8ndr/qwen_3_4b_thinking_model_released/
[3]https://news.ycombinator.com/item?id=44813627

.....

#OpenAI 深夜开源 gpt-oss-120b/20b

深夜读完 OpenAI gpt-oss-120b/20b 技术报告后,OpenAI还是那个OpenAI

OpenAI 深夜开源 gpt-oss-120b/20b:Apache 2.0 权重首次把 o4-mini 级推理、131 K 长上下文与全套 Agent 工具链一次性放出,16 GB 单卡可跑,直接刷新开源大模型天花板。

2025 年 8 月 5 日,OpenAI 在毫无预热的情况下,把首批“开源权重”的推理模型 gpt-oss-120b 和 gpt-oss-20b 直接扔了出来。本以为OpenAI会掏出一个老掉牙的玩意儿,比如gpt4的开源等,没想到还挺有诚意,基本可以说位于开源第一梯队,不输给R1和K2和GLM4.5。基本上是一套带工具调用、三段推理强度可调、专为 Agentic Workflow 设计的完整前沿方案。

1. 一句话总结:这是目前最接近 o4-mini 的开源模型

图片

2. 技术拆解2.1 架构:经典 MoE 的“细节拉满”版

  • MoE 层
  • 120b:128 experts × top-4;20b:32 experts × top-4
  • Gated-SwiGLU + 残差连接,激活内存砍半
  • Attention
  • GQA(8 KV heads)+ 128 宽窗口与全密集交替
  • YaRN 把 8 K 预训练长度硬拉到 131 K
  • 量化
  • 只对 MoE weight 做 MXFP4,90 % 参数 4 bit,效果不掉点 (注意,这是整个模型牛逼的地方,当初R1搞定8bit训练就震惊了,OpenAI浓眉大眼漏了一手infra实力,果然大模型时代,infra才是胜负手)

2.2 分词器:新鲜货o200k_harmony开源了

  • 在 GPT-4o 的 o200k 基础上,新增 Harmony Chat 专用 token
  • 总词表 201 K,中文/代码/数学 token 密度肉眼可见提高

2.3 三段式训练3. 一些评测效果

“实测表现:

  • AIME 2025(with tools)97.9 %,打平 o4-mini-high
  • SWE-Bench Verified 62.4 %,比 o3-mini 高 5+ 个点
  • HealthBench Hard 30 %,直接把 GPT-4o 按在地上摩擦

总体评测

总体评测

code评测

code评测

infrence scalinglaw依然生效

infrence scalinglaw依然生效

openAI把整个模型在医疗化学领域的表现作为一个核心卖点,特地评估了Heath领域。

图片

4. 快速上手:3 条命令跑起来

# 1. 一键下载(已量化)  
git clone https://github.com/openai/gpt-oss  
cd gpt-oss  
pip install -r requirements.txt  

# 2. 120b 单卡推理  
python -m gpt_oss.cli   
  --model gpt-oss-120b   
  --quantize mxfp4   
  --reasoning high   
  --tools browser,python  

# 3. 20b 低资源模式  
python -m gpt_oss.cli   
  --model gpt-oss-20b   
  --gpu-mem 16   
  --reasoning medium

Harmony Chat 的 JSON 模板直接照抄附录,LangChain / LlamaIndex 已连夜适配

5. 写在最后:它到底改变了什么?

图片

如果你正在做:

  • 复杂工作流 Agent
  • 长链数学/代码推理
  • 医疗、法律等高价值场景

gpt-oss-120b/20b 值得立刻拉分支实测

毕竟,上一次开源圈这么热闹,还是 Llama 2 发布的时候。

引用

[1] OpenAI. gpt-oss-120b & gpt-oss-20b Model Card, 2025-08-05

[2] 知乎问答:如何看待 OpenAI 开源 MoE 模型 gpt-oss-120b & gpt-oss-20b?

.....

#深度学习科研包装神器—Regret Bound从入门到精通

顶会包装黑话揭秘

手把手教你把朴素的优化算法套上 Regret Bound 的数学外衣:六步流水线即可量产 O(√T) 上界,让审稿人一眼高级,轻松提升论文“档次”。

这篇文章我来分析一个我发现的有趣的现象。好多论文都爱推导“Regret Bound”

前两天刷到这个文章

本科生开发AI新算法媲美SGD、Adam,北大95后学霸:这是我第一次研究优化方法

​https://zhuanlan.zhihu.com/p/57915596​

我们看看大学霸怎么做的(ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE )

再找一篇量化领域的牛X工作

“Towards Unified INT8 Training for Convolutional Neural Network ”用int8全流程训练神经网络

是不是感觉很相似?

你再去翻一翻顶会的很多论文,这个东西经常出现。已经成为一种标准的学术包装的工具。

也许在一些大组已经广为流传,互联网上没多少人注意到。

看起来很吓人,然而推导并不难。完全可以流水线化。​

1 初探 Regret

举一个简单的例子

小明每天都在炒股

但问题是你没法预知未来。你今天选了 A 股,结果 B 股暴涨,你就会说:“我真后悔没买 B!
数学上,后悔 就是:
你实际赚的钱 vs 如果你一直买“最赚钱的那只股”,能赚多少钱的差距
我们把这个差距叫做 Regret(后悔值)。

稍微嵌入一点数学公式可以表示成这样

你每天做一个决策 当天的"损失"是 如果你一直用"最优策略" ,每天的损失是  那么,经过  天后,你的总 Regret 是:

最后的推导结果应该是,看到Rt的增长究竟是O(n^2)还是O(n)或者是O( sqrt(n) )

因为我们控制不了每次的决策都落在最优上。因此只能考察“增长”的时间复杂度​

2 Regret Bound流水线

这里用optimization举例子

Step1:先写一个"能量函数" 最常用的是欧几里得距离 然后我们看它怎么变化:这叫"递推关系"

Step2 :代入优化算法的更新规则 比如你用的是  :

代入上式:

整理一下:

Step3:利用凸性 如果  是凸函数,就有

也就是

Step4 :结合上面两步 从递推式:

代回去:

移项

Step5 :对  到  求和右边 :

所以:

Step6:假设学习率和梯度有界 假设 (Lipschitz连续) 假设 假设 (凸优化标准结论) 代入:

所以:

得到RegretBound:

这就是一个标准的  RegretBound!

在使用梯度下降,并且给一个这样的界。此时是根号的复杂度。(最优学习率上界)​

3 天才本科生的Regret Bound推导流程

论文:ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE

我们要证明论文的核心公式

图片

先说一下这个adabound算法的流程

图片

我们可以注意到,整个算法首先1和2就是标准的Adam操作。然后3是一个clip,4是一个学习率调度。

第 5 步。这个投影操作定义为:

这可以简写为:

其中  。

其实我写到这里突然想到。我们的很多二阶方法。其实都是在对学习率缩放。在fisher使用对角近似这就是Adam。本质上都是对不同方向的学习率投影(缩放)。

对于这个投影操作,如果Q是单位矩阵,这就是欧几里得距离。

接下来我们讨论论文中的推导过程

以下全部用图片展示。知乎的公式太难用了

Done

感谢阅读,祝我们每个人都能学会包装,“水”出更多的论文!

.....

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐