混元世界模型 1.1 在 GitCode 开源！秒级生成 3D 世界，开发者速来体验！

作为一个统一（any-to-any）的前馈式（feedforward）3D 重建大模型，混元世界模型 1.1 解决了 1.0 版本仅支持文本或单图输入的局限，首次同时支持多模态先验注入和多任务统一输出的端到端 3D 重建。此外，混元世界模型 1.1 还支持额外的相机、深度等多模态先验输入，并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种 3D 几何预测，性能大幅超过现有方法。通过端到

GitCode

527人浏览 · 2025-10-23 16:42:20

GitCode · 2025-10-23 16:42:20 发布

腾讯混元世界模型 1.1 版本（WorldMirror）在 GitCode 正式开源！新增支持多视图及视频输入，单卡即可部署，秒级创造 3D 世界。

🔗 模型开源地址

https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Mirror

它让 3D 重建从专业工具变为人人可用的技术——任何人都能在秒级内从视频或图片创造出专业级 3D 场景。

作为一个统一（any-to-any）的前馈式（feedforward）3D 重建大模型，混元世界模型 1.1 解决了 1.0 版本仅支持文本或单图输入的局限，首次同时支持多模态先验注入和多任务统一输出的端到端 3D 重建。

此外，混元世界模型 1.1 还支持额外的相机、深度等多模态先验输入，并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种 3D 几何预测，性能大幅超过现有方法。

模型核心亮点：灵活、通用、高效

1. 灵活处理不同输入（Any Input）

传统 3D 重建方法只能处理原始图像，无法利用现实应用中常见的额外信息。混元世界模型 1.1 突破性地提出多模态先验引导机制，支持灵活注入：

相机位姿：提供全局视角约束，确保多视图一致性

相机内参：解决尺度歧义，精确投影几何关系

深度图：为纹理缺失区域（如反光面、无纹理区）提供像素级约束

系统采用分层编码策略：紧凑先验压缩为全局语义令牌，稠密先验则以空间对齐方式融合进视觉特征。通过动态先验注入机制，模型能灵活适应任意先验组合——有就用，没有也能工作。

2. 通用 3D 视觉预测（Any Output）

以往方法往往为单一任务定制，要么做点云，要么做深度，要么做相机位姿。混元世界模型 1.1 首次实现了统一，并均取得了 SOTA 的表现：

点云：密集点云回归

多视角深度图：逐像素深度估计

相机参数：完整位姿和内参预测

表面法线：支持高质量网格重建

3D高斯点：直接用于实时新视角渲染

通过端到端多任务协同训练，各任务相互强化。例如，预测的法线图在 Poisson 表面重建中能产生更清晰的网格细节，而深度和相机约束则互相校准，提升整体几何一致性。

3. 单卡部署、秒级推理

不同于需要迭代优化的传统方法（可能耗时数分钟甚至数小时），混元世界模型 1.1 采用纯前馈架构，在单次正向传播中直接输出所有 3D 属性。处理典型的 8-32 视图输入，本地耗时仅 1 秒。

技术架构创新：课程学习策略优化泛化能力

1. 多模态先验提示（Multi-Modal Prior Prompting）

每种先验采用专化编码策略。相机位姿和内参通过 MLP 投影为单个令牌；深度图通过卷积核生成空间对齐的密集令牌，与视觉特征直接相加。这种异构融合策略既保留了全局约束的稳定性，又维持了局部几何信息的细节。通过动态注入与随机组合训练策略，模型能够灵活适应任意先验组合甚至无先验的输入场景，实现对复杂真实环境的鲁棒解析，大幅提升三维结构一致性与重建质量。

2. 通用几何预测架构（Universal Geometric Prediction）

基于完全 Transformer 骨干，使用 DPT 头进行密集预测（点云、深度、法线），用 Transformer 层回归相机参数。对于 3DGS，系统直接预测高斯位置和属性，并通过可微光栅化器进行监督。通过端到端的多任务协同训练，混元世界模型 1.1 在结构精度、渲染保真度及跨任务泛化能力上均显著超越现有方案，为通用三维世界建模奠定了新的技术基石。

3. 课程学习策略（Curriculum Learning）

训练分三个维度递进：任务顺序（先学基础几何，再学表面属性，最后学 3DGS）、数据调度（先用多样化数据，再用高质量合成数据）、分辨率渐进（从低到高）。这套策略将单一图像分布外的泛化能力最大化。

效果对比：重建质量显著提升

在 3D 点云重建任务中，混元世界模型 1.1 相比 Meta 的 Map Anything 等模型，表面更平整、场景更规整；在端到端 3D 高斯重建中，全面超越 AnySplat、FLARE 等方法。

3D 点云重建
MapAnything	混元世界模型1.1

端到端 3DGS 重建
AnySplat	混元世界模型1.1

更多重建效果展示

立即下载体验：开启 3D 创造之旅

混元世界模型 1.1 已完全开源，开发者可访问 GitCode 平台免费体验。

👉 模型开源地址：

https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Mirror

立即行动，探索混元世界模型 1.1 的强大能力，共同推动 3D 技术普及与创新！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

编程职业未来：AI与人类的协同

在当今数字化时代，人工智能（AI）技术正以前所未有的速度发展，并逐渐渗透到编程领域。本文章的目的在于全面探讨编程职业未来中AI与人类协同的各种可能性、挑战和发展趋势。我们将研究AI如何改变编程的工作方式、提高编程效率、拓展编程的应用领域，以及人类程序员在与AI协同工作时需要具备的新技能和角色转变。范围涵盖了从基础的编程概念到高级的AI算法，从理论研究到实际项目应用，旨在为编程从业者、技术爱好者和相

2048 AI社区

java.sql.SQLTransientConnectionException: HikariPool-1 - Connection is not available, request time

2048 AI社区

速看！大数据数据增强为你打开新世界大门

基础概念：什么是数据增强？为什么大数据场景下必须掌握数据增强？核心方法：从传统样本变换到AI生成式增强，数据增强有哪些“武器库”？实战案例：分三大领域（计算机视觉、自然语言处理、结构化数据）手把手教你落地，包含完整代码与效果对比。进阶技巧：大规模数据增强的分布式处理、自动化增强策略、隐私保护增强等高级玩法。数据增强（Data Augmentation）是指通过一系列人工设计的变换或生成规则，从原始