HoloBrain-0 技术报告

26年2月来自地平线的论文“HoloBrain-0 Technical Report”。本文介绍一种名为 HoloBrain-0 的综合性视觉-语言-动作 (VLA) 框架，它弥合基础模型研究与可靠的真实世界机器人部署之间的鸿沟。系统的核心是一种 VLA 架构，它显式地整合机器人具身先验信息，包括多视角相机参数和运动学描述 (URDF)，以增强 3D 空间推理能力并支持多样化的具身形态。通过可扩展

硅谷秋水

391人浏览 · 2026-03-06 00:15:00

硅谷秋水 · 2026-03-06 00:15:00 发布

26年2月来自地平线的论文“HoloBrain-0 Technical Report”。

本文介绍一种名为 HoloBrain-0 的综合性视觉-语言-动作 (VLA) 框架，它弥合基础模型研究与可靠的真实世界机器人部署之间的鸿沟。系统的核心是一种 VLA 架构，它显式地整合机器人具身先验信息，包括多视角相机参数和运动学描述 (URDF)，以增强 3D 空间推理能力并支持多样化的具身形态。通过可扩展的“先预训练后后训练”范式验证了该设计，在 RoboTwin 2.0、LIBERO 和 GenieSim 等仿真基准测试中取得了最先进的结果，并在具有挑战性的长时域真实世界操作任务中也取得了优异的成绩。值得注意的是，高效的 0.2B 参数变型可以媲美规模更大的基线模型，从而实现低延迟的设备端部署。为了进一步加速研究和实际应用，完全开源整个 HoloBrain-0 生态系统，其中包括：(1) 强大的预训练 VLA 基础模型；（2）针对多个仿真套件和实际任务的后训练检查点；以及（3）RoboOrchard，一个用于数据管理、模型训练和部署的全栈VLA基础设施。

机器人操作动作模型。端到端机器人操作模型发展迅速，多方面均取得了进展。一些方法侧重于对动作的概率分布进行建模，提出了诸如隐式行为克隆[49]、高斯混合模型[50]和扩散[4]等方法。另一些方法则探索设计更合适的网络架构以提升操作性能[5, 6, 51, 52, 53, 54, 55]。过去两年，受视觉语言模型（VLM）快速发展的推动[56, 57, 7, 58]，越来越多的研究将VLM与动作模型相结合，构建端到端的视觉-语言-动作（VLA）系统。这些方法通常使用大规模动作数据集进行训练，旨在赋予模型强大的视觉泛化能力和指令跟踪能力。OpenVLA[9]通过离散的动作标记来扩充词汇量，并通过语言模型自回归地生成动作。 π0 [10, 17] 在 VLM 的基础上增加一个动作专家，并利用流匹配来建模动作分布。FAST [47] 引入离散余弦变换来编码动作，以提高训练效率。π0.6 [16] 结合离线强化学习和决策transformer来提升性能。SpatialVLA [59] 通过 3D 位置嵌入增强 VLM 的空间推理能力，而 X-VLA [14] 研究高效的异构数据混合策略。LingBot-VLA [38] 利用更大规模的真实世界动作数据来增强模型的泛化能力。除了这些从 VLM 扩展而来的 VLA 模型之外，一些大型动作模型旨在通过融合视频生成来提升性能。GR-1 [60]、Motus [39] 和 LingBot-VA [61] 将视频生成任务集成到训练过程中。

数据集和数据策略。现有的用于缓解分布偏移的数据采集策略通常遵循三种主要范式。首先，对抗性数据采集方法，例如 ADC [30] 和 MOVE [31]，利用人工扰动来增强模型的鲁棒性。然而，这些方法通常耗时费力，且容易出现因果错位，尤其是在预测的动作块无法解释随机外部干预的情况下。其次，状态空间增强策略，例如 HDSpace [62]，侧重于通过分层采样系统地扩展状态空间。尽管这些方法提高了覆盖率，但它们通常仅限于初始关节状态和轨迹层面的多样性，往往忽略了视觉条件和物体状态的关键变化。此外，它们通常对所有初始状态赋予相同的权重，忽略了特定关键状态可能对整体策略性能产生的不成比例的影响。最后，与这些离线方法不同，诸如 DAgger [32] 和 Genie Centurion [33] 之类的交互式数据采集框架采用人机交互修正机制，实时纠正策略偏差。然而，这些方法存在采样效率递减的问题：随着策略的改进，失败案例变得越来越少，使得大规模数据采集逐渐变得不切实际。

机器人基础设施。机器人基础设施的最新进展主要集中在普及具身人工智能的使用上。诸如 LeRobot [63] 之类的平台，基于 Hugging Face 生态系统构建，通过标准化多模态数据格式并提供易于使用的 PyTorch 实现（例如 ACT 和扩散策略），代表着向前迈出的一大步。通过将硬件接口与云端数据集集成，LeRobot 有效地降低了准入门槛，实现了快速原型设计和跨机构数据共享 [13]。然而，尽管此类平台简化了开发流程，但它们在处理高吞吐量数据和部署可复现性方面常常面临瓶颈。

如图所示，HoloBrain-0 的整体架构呈现一个统一的端到端框架，由三个核心模块组成。首先，视觉语言模型 (VLM) 作为语义骨干，负责编码文本指令和视觉观察结果。为了平衡推理效率和性能，实例化该模块的两种不同架构：一种是基于二维检测的基础模型（GroundingDINO [19]），另一种是基于 LLM 的 VLM（Qwen2.5-VL [8]）。其次，空间增强器将多视角空间一致性和几何先验信息注入到 VLM 提取的视觉嵌入中。第三，具身-觉察动作专家显式地编码机器人的运动链。它通过交叉注意机制，促进动作查询与机器人本体感觉、文本提示和空间增强视觉特征之间的紧密交互。最终，它能够在统一的相对动作空间内预测控制指令，从而适应异构机器人配置。最后，为了确保在实际环境中稳定流畅地部署，引入 SimpleRTC 并结合教师强制训练策略，实现平滑的异步推理。
请添加图片描述

透视-觉察空间增强器

为了有效弥合丰富的二维视觉语义与精确的三维空间几何之间的差距，采用先前工作（BIP3D [20] 和 SEM [21]）中的空间增强器。该模块通过将来自多个视角的二维图像特征沿各自的相机视锥体投影到统一的三维坐标系中，显式地注入空间先验信息。在功能上，它利用相机内参和外参对三维点进行采样，预测离散的深度分布（深度传感器输入可插拔），并将这些深度分布聚合以生成深度感知的三维位置嵌入。然后，将这些嵌入与图像特征融合，生成全局一致且几何感知的三维表示。至关重要的是，为了促进跨具身训练，对原始的SEM[21]设计进行修改，将3D投影坐标系从机器人的局部基坐标系转移到中央固定相机坐标系（例如，第三人称视角或头戴式视角）。将辅助视角（例如，腕部相机）融合到该中央坐标系中具有两大优势：（1）它消除不同机器人平台间基坐标系定义不一致造成的学习干扰，从而实现稳健的跨具身泛化；（2）它无缝地兼容以自我为中心的人类数据（例如，EgoDex[22]），这些数据本身缺乏固定的机器人“基”坐标系，但具有自然的头戴式视角。

具身-觉察动作专家

鉴于机器人运动规划任务与其他问题领域截然不同的特性，设计一种动作专家，而不是像大多数现有方法那样直接采用大语言模型（LLM）的结构。 Action Expert 的设计遵循增强具身泛化能力并确保与任意具身数据兼容的原则。其整体架构主要基于 SEM [21]。它由机器人状态编码器和动作解码器组成，两者主要通过以关节为中心的 Transformer 实现。核心组件是关节图注意机制（详见 [21]）。为了对动作概率分布进行建模，采用一种基于扩散的方法，其中，执行 x-预测来直接估计状态，而不是预测噪声。

如图所示：动作专家的输入状态表示和输出动作空间
请添加图片描述

在 SEM 的基础上，对输入状态表示和输出动作空间都进行改进，进一步提升模型的具身泛化能力和性能。首先，在输入状态表示方面，对关节角度信息进行掩码处理，仅将每个关节的 6D 位姿输入模型。

二值掩码（m_i = 1 ）表示标量关节角度 θ 被排除（设置为掩码值）。在实现中，除夹爪张开度（以米为单位）之外的所有关节角度都被掩码处理。关节的六维姿态足以表示机器人的状态。与关节角度不同，后者存在零点定义不一致、旋转方向不同以及URDF（统一参考系）因机器人个体而异等问题，而笛卡尔坐标系下的连杆姿态则提供一个统一的几何参考。因此，如果输入的是模糊的、依赖于具体个体的关节角度，则会阻碍模型在不同个体间的泛化能力。

对于输出动作空间，模型预测每个关节的混合相对变换，涵盖关节角度空间和笛卡尔坐标系下的姿态空间。具体来说，对于每个关节 i，该模型输出关节角度残差（以弧度为单位）和连杆姿态位移（以米和四元数为单位）的串联，这里关节角度和连杆姿态的位移均基于当前机器人状态计算，且未进行归一化处理。这种双空间预测方法具有两个显著优势。首先，它能够灵活地部署在各种硬件接口上，支持底层关节位置控制和高层末端执行器姿态控制。其次，它便于在异构数据集上进行训练，包括没有明确关节角度标注的人体视频数据。

训练目标

在训练过程中，优化定义的四个损失项如下：

L=α_τ (λ_1 L_joint + λ_2 L_pose + λ_3 L^fk ^_pose ) + λ_4 L_depth

其中，关节位置损失 L_joint 和关节姿态损失 L_pose 分别定义为预测关节角度和真实关节角度与真实 6D 姿态之间的距离。关键在于，由于模型预测的是相对更新，将这些预测值添加到当前机器人状态中，以计算绝对值损失。为了进一步提高位置精度，添加前向运动学姿态损失 L^fk_pose。该损失首先使用前向运动学方法，根据预测的关节角度重新计算 6D 姿态，然后评估重新计算的姿态与真实姿态之间的距离。

由于机器人运动轨迹呈现出高度复杂的分布，且数据集包含大量噪声，将大多数扩散策略中使用的标准 L2 距离替换为平滑的 L1 距离，以减轻某些样本上异常大的训练误差所导致的不稳定性。深度损失 L_depth 应用于空间增强器预测的深度分布，并被构建为交叉熵损失。在上面公式中，α_τ 是一个与时间步长相关的系数，它随扩散时间步长 τ 而变化，其表达式为：

α_τ =T/(τ+1)

其中 T 表示扩散训练中噪声添加的最大步数，在实验中设置为 T = 1000。因此，噪声水平越高，损失权重越小，反之亦然。

为了进一步增强模型对多模态动作分布的建模生成 N 条候选轨迹，并根据预测误差动态调整损失权重。预测误差最小的轨迹（“获胜轨迹”）会被赋予更高的权重，而其余轨迹的权重则会被抑制。这种机制可以防止模型收敛到不同模式的平均值，从而保持有效解的多样性。

SimpleRTC 和教师强制训练

在 VLA 部署中，同步推理会按顺序执行完整的动作块。虽然这种方法对于准静态任务有效，但它本身会导致运动停顿和决策间隔延长（通常达到约 1 秒）。因此，系统无法处理高度动态或细粒度的操作任务。另一种方法是异步推理，它将模型推理与动作执行解耦，从而最大化推理频率（通常为 5-10 FPS）。然而，观察延迟和连续动作块之间固有的不一致性会导致轨迹跳跃。这会导致机械抖动，从而降低任务成功率，并可能损坏硬件。为了缓解这些不连续性，Black [23] 引入实时分块 (RTC)，它通过从前一个未执行分块获取推理时梯度来强制执行时间一致性。然而，这种梯度计算会显著增加推理延迟。为了解决这个问题，其提出训练时 RTC [24]，通过固定长度的动作前缀将一致性直接融入训练阶段。虽然这种方法消除推理开销，但需要大量的模型重新训练。

从概念上讲，这两种方法都借鉴图像扩散修复技术。然而，推理时 RTC [23] 依赖于梯度引导 [25]，这会带来显著的计算开销和优化不稳定性。相反，训练时 RTC [24] 作为一个掩码条件模型，受到其僵化的固定掩码结构严重限制。为了克服这些局限性，重新思考VLA模型的RTC范式，并提出一种灵活的两步策略：（1）推理-时策略-SimpleRTC：一种基于软约束修复的零开销可插拔策略，可无缝集成到任何扩散或流动策略中。（2）训练-时策略-教师强制：一种训练策略，它动态地将输入噪声的前N步替换为真实动作，从而能够稳健地适应任意长度的指导。

推理-时-SimpleRTC。SimpleRTC是一种无梯度方法，无需修改模型或重新训练。SimpleRTC直接利用前一个动作块中未执行的部分来指导推理过程中的去噪阶段。该方法采用一种受 RTC [23] 启发的软掩码策略，在前 d 步（对应于推理延迟）中强制与前一个块保持严格一致性，然后在长度为 L 的后续转换窗口内进行平滑的轨迹融合。形式上，令 Aˆ_0|τ = Model(A_τ , τ ) 表示扩散步骤 τ 的 x-预测输出，A_prev 表示前一个动作块中未执行的剩余部分。

然后，进行去噪采样，即 A_τ−1 = Sampler(A_τ,Ã_0|τ,τ)。值得注意的是，此指导原则是针对 x 轴预测推导出来的。对于噪声或流量预测参数化，需要进行修改。为了控制这种转变，为预测范围 H 中的每个时间步 t 定义一个归一化变量 ρ_t通过用真实动作覆盖初始的噪声步骤来构建混合输入轨迹。令 A_gt 表示真实动作，A_noise 表示相应的噪声动作。

此处，前缀长度 N_prefix 从泊松分布 Poisson(λ) 中采样，其中均值 λ 是一个超参数，经过校准以匹配预期的推理延迟。为了确保模型对无历史推理的鲁棒性，应用此策略并设置较小的教师强制比率 γ（例如 25%）。这种概率混合有效地使训练分布与 SimpleRTC 推理保持一致，同时保留模型在全噪声输入的通用去噪能力。

预训练数据集

为了构建具有强大泛化能力的VLA基础模型，构建一个大规模、异构的预训练数据集。数据选择策略遵循以下三个核心原则：

• 跨具身性和空间基础。为了与具身-觉察架构保持一致，致力于实现广泛的跨具身性和三维空间泛化。因此，从各种机器人平台和传感器配置中获取数据。至关重要的是，为了满足架构要求，所有选定的数据集都严格包含多视角相机参数（内参和外参）以及完整的运动学描述（即URDF）。
• 来自仿真的高保真几何先验。仿真环境自然地提供精确的几何真值，包括精确的深度图和相机参数。整合大量的仿真数据，因为这种丰富的空间监督能够显著帮助模型深入理解三维世界动态。
• 语义和对象多样性。任务类型和交互对象的多样性对于开放世界泛化至关重要。为了最大限度地提高这种多样性，采用两种明确的数据整理策略。首先，整合大规模的以人为中心数据集，该数据集自然地包含开放世界中物体外观和交互模式的广泛差异。其次，为了系统地评估和提升机器人对各种极端物体的操作能力，专门设计并收集“抓取任何物体”数据集，以确保模型对未见过的和几何形状复杂的物体具有鲁棒性。

数据收集完成后，进行严格的数据清洗。其中最关键的一步是三维一致性验证：将关节的六维姿态投影到图像上，并过滤掉存在显著重投影误差的数据，如图所示。该方法能够同时验证相机参数、动作标签和URDF的准确性。此外，还应用包括任务类型、运动轨迹合理性和教学视频一致性在内的进一步过滤标准，以剔除低质量样本。
请添加图片描述

如表所示，完整的预训练数据集由四个主要部分组成：自主采集的专有数据、开源真实世界数据、仿真数据和人类视频数据。该语料库总共包含超过1.56亿帧（采集时间超过3500小时），这些帧来自七个不同的实例。在预训练过程中，根据数据质量和任务丰富度手动设置不同来源的采样比例；例如，将自主采集数据的比例提高到41%，并将EgoDex数据集的比例从19%（帧比例）降低到9.8%。
请添加图片描述

迭代式测试-驱动的后训练数据策略

预训练之后，有效的后训练对于使VLA能够掌握复杂的、长期的任务至关重要。然而，高质量真实世界数据的采集成本高昂，常常限制了这一阶段的有效性。由于分布噪声和高边际采集成本，朴素的数据集扩展方法在进行精细操作时效率越来越低。虽然先前的方法通过对抗性采集[30, 31]或交互式校正[32, 33]来解决分布偏移问题，但高效地扩展信息密度仍然是一个挑战。为了解决这个问题，提出一种测试-驱动的迭代框架，该框架将重点从面向规模的扩展转移到面向质量的迭代。该方法整合两种策略：主动扩展状态多样性以预测潜在的分布外（OOD）场景，以及被动地针对观察的故障簇，使训练分布与现实世界的复杂性相匹配。

主动状态扩展。为了在部署前减轻潜在的OOD故障，在数据采集阶段主动增强状态多样性。不依赖随机增强，而是针对两个关键维度上的特定易故障情况进行增强。首先，在视觉状态方面，系统地改变环境因素，例如光照、背景纹理和物体实例，以确保感知鲁棒性。其次，在机器人状态方面，从完整的任务演示过渡到细粒度的子任务收集。这能够有针对性地强化操作流程中已识别的瓶颈，而无需重复收集完整的成功轨迹。

测试-驱动的故障恢复。不可避免地，实际部署会使智体暴露于意料之外的OOD状态。为了弥合训练时间和测试时间分布之间的差距，采用一种动态的闭环恢复策略。该过程首先进行故障模式表征，系统地分析策略故障并按根本原因进行聚类。接下来，将这些失败状态作为“种子”进行定向增强，通过改变视觉和物理参数来覆盖失败区域。最后，通过收集短时恢复轨迹（通常为 2-3 秒）来进行分布对齐，这些轨迹引导智体返回到成功流形。与通常处理单个错误的标准交互式方法（例如 DAgger [32, 33]）不同，该方法可以同时解决整个失败模式集群，从而显著优化数据收集预算。

下面介绍全栈基础设施：RoboOrchard。

尽管数据驱动的模仿学习在机器人操作领域备受关注，但实际部署往往受到工具链碎片化和非标准化接口的阻碍。与成熟的计算机视觉领域不同，机器人学习缺乏统一的数据标准和部署范式，导致工程开销巨大。因此，研究人员常常将大量精力投入到系统集成任务中，而非专注于算法创新。

为了应对这些挑战，推出 RoboOrchard，一个如图所示的全栈模块化基础设施。其设计的核心是“人工品-驱动解耦”原则：RoboOrchard 不依赖于跨系统层的紧密耦合代码，而是通过标准化人工品连接独立的模块。
请添加图片描述

为了支持这一原则，定义统一人工品规范，精确描述关键数据集（包括自描述数据集和自包含模型工件）的协议。基于这些规范，RoboOrchard 提供一套即用型组件，例如用于高保真数据采集的配套应用程序、基于 Pydantic 的训练框架以及可在仿真和真实硬件之间平滑切换的部署运行时间。此外，还提供一些便捷的工具，例如交互式视觉手眼标定节点和用于数据审查的轻量级文件服务器。这些组件共同作用，可减少工程工作量并加速机器人系统的实验迭代。

数据采集基础设施

高质量的真实世界数据是具身智能的基石。RoboOrchard 构建一套完整的基础设施，涵盖从硬件采集到标准化存储的各个环节，旨在解决多模态数据的时间同步和存储效率问题。

数据采集系统。提供一套统一的数据采集套件，包含高性能的 ROS 2 Recorder 后端和用户友好的配套应用程序。为了保证高带宽写入性能，后端采用 MCAP 格式，并集成了完整性监视器，可自动标记传感器丢帧或时间戳异常。此外，前端应用程序提供一个“所见即所得”的可视化界面，用于任务编排（通过 Foxglove）。这种交互式工作流程显著降低了在实验室环境中采集专家演示数据的门槛。

RODataset 规范。为了克服传统平面文件在处理大规模多模态数据方面的局限性，提出 RODataset 规范。本规范采用混合存储架构：高带宽传感器数据（例如图像、关节状态）以 Apache Arrow 格式存储，实现零拷贝内存加载，并与 HuggingFace [34] 生态系统无缝集成。同时，任务描述和统计指标等全局元数据通过嵌入式 DuckDB 引擎进行结构化存储。这种设计能够对百万帧数据集进行高效的基于 SQL 的查询，并原生处理非对齐的多频信号，从而保留物理世界的真实时间动态。

模型训练基础架构

作为 RoboOrchard 的核心子模块，RoboOrchardLab 是一个基于“库优先”理念构建的模块化训练框架，旨在增强算法研究的可复现性和配置管理的安全性。RoboOrchardLab 目前原生支持多种 VLA 模型，例如 HoloBrain-0，并计划在未来的版本中集成更多模型和学习算法。

类型安全的配置和基于 Hook 的训练器。为了摆脱传统易出错、结构混乱的字典配置，采用由 Pydantic 提供支持的严格基于模式的配置系统。这种方法确保运行时自动结构验证，并为复杂的超参数启用 IDE 自动补全，从而有效缓解了源头配置不匹配导致的潜在故障。此外，训练流水线采用基于钩子的事件驱动架构。这种设计使研究人员能够在特定执行阶段注入自定义的监控、日志记录或控制逻辑，而无需修改核心训练循环，从而确保灵活性和代码库的完整性。

模型库和模型工件。该框架提供一个符合统一 I/O 接口的基准算法库（模型库）。至关重要的是，训练完成后，系统会自动打包一个标准化的模型工件。与简单的权重文件不同，该人工品将 SafeTensors 模型权重、预处理流水线和环境依赖项封装到一个可移植的单元中。这种自包含设计确保模型在脱离训练代码库后仍能保持独立的推理能力，体现“训练即交付”的原则。

模型部署基础设施

在部署阶段，RoboOrchard 优先考虑提升工作流程的可靠性和效率。通过三大支柱来实现这一目标：具有标准化接口的解耦推理节点和控制节点、灵活的推理模式以及直观的可视化工具。这些设计共同实现真实机器人和仿真环境之间的无缝切换。

解耦推理架构。常见的开源部署脚本通常将模型初始化与机器人控制回路耦合在一起。这种耦合会导致严重的依赖冲突（例如，模型库和硬件驱动程序之间的冲突），并阻碍模型切换。为了解决这个问题，RoboOrchard 采用解耦的客户端-服务器架构。在服务器端，提供基于 Flask 的推理服务。它可以直接加载标准化的模型包而无需修改，并且可以本地或远程部署以隔离环境。这项单一服务统一仿真和物理硬件的推理。在机器人客户端，提供一个轻量级的通用 ROS2 客户端。通过读取模型包中的元数据，该节点动态配置其订阅（观察）和发布（动作）主题，并将原始传感器数据格式化为发送给推理服务器的标准化请求。

推理模式。为了满足不同的任务需求，ROS2 客户端支持两种不同的推理模式：（1）同步模式：强制执行严格的“观察-推理-执行”时序。它适用于模型调试和准静态操作任务。(2) 异步模式：通过非阻塞回调和时间戳对齐，解耦感知和推理频率。这显著提高高动态任务的响应速度。至关重要的是，客户端会将执行延迟和未执行的动作历史记录反馈给模型服务器。这种上下文信息使得服务器端平滑算法（例如 SimpleRTC）能够生成时间上一致的动作块，从而补偿异步延迟。

交互式评估界面。为了实现模型评估和数据扩展之间的闭环，将部署运行时无缝集成到数据采集配套应用程序中。这个统一的界面可以集中控制模型推理服务器和 ROS2 机器人客户端。具体而言，用户可以轻松管理服务器生命周期（例如，指定模型路径和启动服务），同时通过细粒度的控制（例如，启动、暂停和接管）来指挥客户端执行流程。结合实时记录功能，这种设计将部署工具转变为强大的数据引擎，能够高效地收集自动模型部署和人工干预数据，从而加速策略的迭代改进。

实现细节

采用 Grounding DINO Tiny [19] 和 Qwen2.5-VL-3B [8] 作为VLM的主干网络。对于 Qwen2.5-VL-3B，冻结了视觉编码器和文本编码器，以保留其预训练的语义表示提取能力。重要的是，对于LLM 组件，仅保留第一个 Transformer 层，并舍弃所有后续层，以降低计算开销。最终的参数统计信息详见下表，其中 HoloBrain-0-QW 包含 11 亿个参数，HoloBrain-0-GD 包含 2 亿个参数。与 GR00T [12]、π0 [10] 和 RDT [18] 等主流 VLA 模型相比，HoloBrain-0 的动作专家组件更加轻量级。这符合分层设计理念：VLM 主干网络作为语义推理的“大脑”，而动作解码器则专门负责执行。这种聚焦角色使得动作专家所需的参数显著减少，从而形成轻量级架构，能够在资源受限的边缘设备（例如 RDK S100 [35]）上高效部署。
请添加图片描述

训练详情。在预训练阶段，HoloBrain-0-QW 和 HoloBrain-0-GD 均训练 20 万步，批大小分别为 2048 和 512。整个预训练阶段的学习率固定为 1×10⁻⁴。在后训练阶段，训练步数根据数据集大小在 10 万到 20 万步之间选择。学习率初始值为 1×10⁻⁴，并在最后 10% 的训练步数内衰减至 1×10⁻⁵。后训练的批大小，HoloBrain-0-QW 设置为 256，HoloBrain-0-GD 设置为 128。 AdamW 优化器在所有阶段均保持一致。