最大无本体具身数据集开源!简智机器人联合百度百舸,加速具身智能应用落地
全球具身智能赛道迎来快速发展期,高质量数据开源与领先的 AI 基础设施等成为驱动行业突破的重要力量。百度百舸正携手具身智能产业的广大生态伙伴,共建开放、协同的产业生态,共同加速具身智能机器人的应用落地,推动机器人真正走进千行百业、千家万户。「RealOmni」数据集合下载地址:https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-Op
1. 简智机器人开源行业最大规模的无本体具身数据集
1 月 5 日,简智新创(北京)机器人科技有限公司(以下简称「简智机器人」)正式开源「RealOmni-Open DataSet」无本体具身数据集,数据集总计包含超过 10,000 小时、百万条以上的真实操作记录,是目前行业已知数据规模最大且每一项技能数据量最多的无本体开源数据集。
当前,简智机器人能够实现每日万小时以上级别的持续数据采集与处理,不断为数据集注入鲜度,并保障了其持续扩展的能力。
简智机器人专注于通用具身智能全链路解决方案,为行业提供标准化、自动化的数据流基础设施服务。近日,简智机器人完成第三轮融资,成为具身智能数据基建细分赛道融资进展最快的企业。
「RealOmni」属于无本体具身数据集,这类数据集的核心是将数据采集的源头从「机器人」转移到了「人」,采集场景多,数据真实性高。传统数据集需要工作人员操作机器人,依赖机器人本体在特定环境(如实验室等)中运行获取数据,场景与机器人传感器性能受限、且数据维度少、精准度低。而无本体数据集的采集不依赖于特定机器人硬件,工作人员通过穿戴 GenDas 无感设备,直接在真实环境中记录人类的操作过程,采集多维度、多场景下的实际操作数据(高精度动作轨迹、触觉反馈与视觉场景等)。
本次开源的「RealOmni」数据集覆盖场景广、单技能数据累计深度高、模态信息丰富,能够全方位满足模型多维度感知训练需求。其中,「RealOmni」单技能数据累计深度远超传统碎片化数据,确保单任务至少具备万条 clips 以上累计深度。同时,在数据集中,长程任务比例超过 99.2% 以上,完整记录了精细化任务的操作全过程,为模型提供了真实、连贯的行为范本。该数据集共覆盖 10 大场景任务、超过 30 项技能。首批开源数据包括 4 个场景集、12 项生活技能,均为双手协同、长程任务,涉及叠衣、拉拉链、桌面杂物整理、穿鞋带等高频生活场景。同时,该数据集收录了超过 3000 个真实家庭场景的自然操作,避免单一场景、动作或目标的简单重复,从而确保在单一技能下具备优秀的场景泛化能力。并且该数据集还整合了超大 FOV 原始图像、轨迹、语意标注、关节动作等多种模态信息,数据精度、质量行业领先。

2. 百度百舸第一时间上线「RealOmni」数据集,加速具身智能应用落地
百度智能云已经服务了包括北京、上海、浙江、广东创新中心在内的具身智能国家队,并为产业链上超过 20 家重点企业提供强大支撑。其中,百度百舸 · AI 计算平台为众多具身智能场景客户提供了基于「极致训推加速 + 一站式开发平台 + 全栈工具链」综合能力的 AI Infra 解决方案。
简智机器人秉持 「具身智能源于人、回归人」 的核心理念,将「RealOmni」数据集第一时间同步在百度百舸平台,便于具身智能行业伙伴快速将数据集应用于业务中。
2.1 百度百舸「RealOmni」数据集使用指南
百度百舸平台第一时间上线「RealOmni」数据集,同时在百舸平台内还整合了众多开源社区的热门公共数据集,供用户直接下载使用。您可将下载后的「RealOmni」数据集转储至自定义 BOS 类型数据集,快速启动模型训练与验证工作,助力加速模型落地。
创建「目标数据集」
在百度百舸控制台页面,进入「数据集」菜单,在「自定义数据集」页面点击「创建数据集」,填写数据集相关配置信息,完成「目标数据集」的创建。


下载「RealOmni」数据集到「目标数据集」
进入「数据集」菜单,进入「公共数据集」列表,选择下载的数据集,并进入数据集版本列表。



点击「下载」,将选中的「RealOmni」保存到「目标数据集」中。


使用数据集创建业务负载
数据集下载成功后,该数据集可用于您在百度百舸平台开展各项相关操作,包括创建分布式训练任务、创建开发机实例、部署在线服务等。以下以创建分布式训练任务为例:
在百舸控制台的左侧菜单选择「分布式训练任务」,在页面中点击「创建任务」。

选中需要使用的资源队列后,在「数据集挂载」表单项下选择「添加数据集挂载」并选择「目标数据集」,快速开启模型训练。

3. 百度百舸:为具身智能研发打造超级加速引擎
百度百舸提供的 AI Infra 解决方案,为具身智能企业提供从研发到部署的全周期加速支持,全面提升各类模型的训练与迭代效率。

极致训推加速:通过自研 AI 加速套件 AIAK 进行深度工程优化,针对具身智能主流模型提供显著性能提升,其中 VLM 模型训练性能最高提升 40%,WM 模型训练与推理性能分别提升 20% 和 36% 以上。
一站式开发平台:提供覆盖「开发-训练-仿真-部署」研发全周期的一站式服务,支持云端高效开发、万卡集群 99.5% 有效训练时长、主流仿真环境一键部署及本地推理快速验证。
全栈工具链:作为国内首家全面适配 RDT、π0、 π0.5、GR00T N1.5 等主流开源 VLA 模型的云平台,提供开箱即用的预置训练模版、高质量仿真数据集及数据转换工具,大幅降低技术探索门槛,让开发者能快速启动训练与验证。
4. 总结
全球具身智能赛道迎来快速发展期,高质量数据开源与领先的 AI 基础设施等成为驱动行业突破的重要力量。百度百舸正携手具身智能产业的广大生态伙伴,共建开放、协同的产业生态,共同加速具身智能机器人的应用落地,推动机器人真正走进千行百业、千家万户。
「RealOmni」数据集合下载地址:https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-OpenData
更多推荐



所有评论(0)