混元世界模型 1.1 在 GitCode 开源!秒级生成 3D 世界,开发者速来体验!
作为一个统一(any-to-any)的前馈式(feedforward)3D 重建大模型,混元世界模型 1.1 解决了 1.0 版本仅支持文本或单图输入的局限,首次同时支持多模态先验注入和多任务统一输出的端到端 3D 重建。此外,混元世界模型 1.1 还支持额外的相机、深度等多模态先验输入,并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种 3D 几何预测,性能大幅超过现有方法。通过端到
腾讯混元世界模型 1.1 版本(WorldMirror)在 GitCode 正式开源!新增支持多视图及视频输入,单卡即可部署,秒级创造 3D 世界。
🔗 模型开源地址
https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Mirror
它让 3D 重建从专业工具变为人人可用的技术——任何人都能在秒级内从视频或图片创造出专业级 3D 场景。
作为一个统一(any-to-any)的前馈式(feedforward)3D 重建大模型,混元世界模型 1.1 解决了 1.0 版本仅支持文本或单图输入的局限,首次同时支持多模态先验注入和多任务统一输出的端到端 3D 重建。
此外,混元世界模型 1.1 还支持额外的相机、深度等多模态先验输入,并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种 3D 几何预测,性能大幅超过现有方法。
模型核心亮点:灵活、通用、高效
1. 灵活处理不同输入(Any Input)
传统 3D 重建方法只能处理原始图像,无法利用现实应用中常见的额外信息。混元世界模型 1.1 突破性地提出多模态先验引导机制,支持灵活注入:
-
相机位姿:提供全局视角约束,确保多视图一致性
-
相机内参:解决尺度歧义,精确投影几何关系
-
深度图:为纹理缺失区域(如反光面、无纹理区)提供像素级约束
系统采用分层编码策略:紧凑先验压缩为全局语义令牌,稠密先验则以空间对齐方式融合进视觉特征。通过动态先验注入机制,模型能灵活适应任意先验组合——有就用,没有也能工作。
2. 通用 3D 视觉预测(Any Output)
以往方法往往为单一任务定制,要么做点云,要么做深度,要么做相机位姿。混元世界模型 1.1 首次实现了统一,并均取得了 SOTA 的表现:
-
点云:密集点云回归
-
多视角深度图:逐像素深度估计
-
相机参数:完整位姿和内参预测
-
表面法线:支持高质量网格重建
-
3D高斯点:直接用于实时新视角渲染
通过端到端多任务协同训练,各任务相互强化。例如,预测的法线图在 Poisson 表面重建中能产生更清晰的网格细节,而深度和相机约束则互相校准,提升整体几何一致性。
3. 单卡部署、秒级推理
不同于需要迭代优化的传统方法(可能耗时数分钟甚至数小时),混元世界模型 1.1 采用纯前馈架构,在单次正向传播中直接输出所有 3D 属性。处理典型的 8-32 视图输入,本地耗时仅 1 秒。
技术架构创新:课程学习策略优化泛化能力
1. 多模态先验提示(Multi-Modal Prior Prompting)
每种先验采用专化编码策略。相机位姿和内参通过 MLP 投影为单个令牌;深度图通过卷积核生成空间对齐的密集令牌,与视觉特征直接相加。这种异构融合策略既保留了全局约束的稳定性,又维持了局部几何信息的细节。通过动态注入与随机组合训练策略,模型能够灵活适应任意先验组合甚至无先验的输入场景,实现对复杂真实环境的鲁棒解析,大幅提升三维结构一致性与重建质量。
2. 通用几何预测架构(Universal Geometric Prediction)
基于完全 Transformer 骨干,使用 DPT 头进行密集预测(点云、深度、法线),用 Transformer 层回归相机参数。对于 3DGS,系统直接预测高斯位置和属性,并通过可微光栅化器进行监督。通过端到端的多任务协同训练,混元世界模型 1.1 在结构精度、渲染保真度及跨任务泛化能力上均显著超越现有方案,为通用三维世界建模奠定了新的技术基石。

3. 课程学习策略(Curriculum Learning)
训练分三个维度递进:任务顺序(先学基础几何,再学表面属性,最后学 3DGS)、数据调度(先用多样化数据,再用高质量合成数据)、分辨率渐进(从低到高)。这套策略将单一图像分布外的泛化能力最大化。
效果对比:重建质量显著提升
在 3D 点云重建任务中,混元世界模型 1.1 相比 Meta 的 Map Anything 等模型,表面更平整、场景更规整;在端到端 3D 高斯重建中,全面超越 AnySplat、FLARE 等方法。
MapAnything |
混元世界模型1.1 |
---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
AnySplat | 混元世界模型1.1 |
---|---|
![]() |
![]() |
![]() |
---|
![]() |
![]() |
立即下载体验:开启 3D 创造之旅
混元世界模型 1.1 已完全开源,开发者可访问 GitCode 平台免费体验。
👉 模型开源地址:
https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Mirror
立即行动,探索混元世界模型 1.1 的强大能力,共同推动 3D 技术普及与创新!
更多推荐
所有评论(0)