摘要:大型语言模型(LLMs)已演进为具备自主工具使用能力和多步推理能力以解决复杂问题的智能体系统。然而,基于通用基础模型的后训练方法在智能体任务中始终表现欠佳,尤其是在开源实现中。我们找到了根本原因:缺乏稳健的智能体基础模型,迫使模型在后训练过程中需同时学习多种智能体行为,并使其与专家示范保持一致,从而产生了根本性的优化冲突。为此,我们率先提出将智能体持续预训练(Agentic Continual Pre-training,Agentic CPT)融入深度研究智能体训练流程,以构建强大的智能体基础模型。基于这一方法,我们开发了一款名为AgentFounder的深度研究智能体模型。我们在10个基准测试中对AgentFounder-30B进行了评估,该模型在保持强大工具使用能力的同时取得了最先进的性能,特别是在BrowseComp-en上达到39.9%、在BrowseComp-zh上达到43.3%,以及在HLE上Pass@1指标达到31.5%。Huggingface链接:Paper page,论文链接:2509.12815

研究背景和目的

研究背景

随着3D游戏、虚拟制作和元宇宙等领域的快速发展,高质量3D内容的需求急剧增加。然而,传统的3D资产创建过程复杂、耗时且成本高昂,通常需要跨多个软件套件的专业知识,包括建模、UV映射、纹理处理和绑定等。这一过程不仅限制了创意迭代的灵活性,还提高了3D内容创作的门槛,使得许多创作者难以高效生产出符合游戏引擎技术要求的高质量3D资产。

近年来,生成式AI(特别是扩散模型)在3D内容创作领域取得了显著进展,如Hunyuan3D系列展示了从单张图像或文本提示生成可扩展、高分辨率资产的能力。然而,这些进展主要集中在几何形状的生成上,对于同时满足高视觉保真度和游戏引擎实时渲染技术需求的整合资产生成仍面临挑战。现有解决方案往往只能解决管道中的孤立部分,如生成没有游戏优化拓扑的几何形状或产生缺乏材料准确性的纹理,艺术家仍需花费大量时间将这些输出整合成可用且性能优良的资产。

研究目的

本研究旨在通过引入Hunyuan3D Studio,一个端到端的AI驱动内容创作平台,来革命性地改变游戏生产流程。该平台旨在通过自动化和简化游戏就绪3D资产的生成过程,显著降低迭代时间并降低3D内容创作的门槛。具体目标包括:

  1. 自动化资产生成:通过集成先进的神经模块,实现从单一概念图像或文本描述到完全实现、生产质量的3D模型的快速转换。
  2. 满足技术需求:确保生成的资产不仅视觉上引人注目,还符合当代游戏引擎的严格技术要求。
  3. 降低创作门槛:通过提供从创意意图到技术资产的无缝桥梁,使非专业人士也能轻松创作出高质量3D内容。

研究方法

1. 整体架构设计

Hunyuan3D Studio被设计为一个顺序但模块化的工作流程,每个阶段处理资产并为其下一阶段添加关键数据。该管道由七个核心技术模块组成,涵盖从概念设计到引擎集成的资产创建过程的每个基本阶段:

  • 可控图像生成:支持文本到图像和图像到多视图合成,为后续处理提供多模态输入。
  • 高保真几何生成:从单视图或多视图图像生成详细的3D几何形状。
  • 部件级3D生成:将复杂模型自动分解为逻辑功能组件,便于独立编辑和动画。
  • 多边形生成:使用自回归模型进行面逐面生成,构建低多边形资产。
  • 语义UV展开:实现上下文感知的UV分割,最小化缝隙并确保高效的纹理空间利用。
  • 纹理合成与编辑:从文本或图像提示生成物理上准确的PBR纹理集,支持非破坏性编辑。
  • 动画模块:推断关节位置和骨骼层次结构,计算顶点权重,创建即可用于标准游戏引擎的动画资产。

2. 关键技术实现

  • 可控图像生成:利用最先进的开源模型,包括基于Qwen-Image-Edit的多风格图像到图像生成模型,并通过LoRA进行适应,以支持多样化的游戏艺术风格。
  • 高保真几何生成:基于Hunyuan3D-ShapeVAE和Hunyuan3D-DiT框架,通过条件生成(如边界框和多视图图像)来指导几何形状的生成。
  • 部件级3D生成:引入P3-SAM进行原生3D部件分割,以及X-Part进行高保真和结构一致的形状分解。
  • 多边形生成:采用自回归模型和强化后训练策略,通过BPT(块和补丁索引)提高训练和推理效率。
  • 语义UV展开:提出SeamGPT框架,通过自回归方法生成艺术家风格的切割缝。
  • 纹理合成与编辑:引入多模态纹理编辑模型和4K材料球生成模型,支持文本和图像引导的编辑。
  • 动画模块:分为人形角色动画模块和通用角色动画模块,采用模板基自动绑定和运动重定向技术。

研究结果

1. 资产生成质量

Hunyuan3D Studio生成的资产在视觉上引人注目,同时满足游戏引擎的技术要求。实验验证表明,生成的资产能够无缝集成到Unity和Unreal Engine等目标游戏引擎中,显著减少了生产时间和技术障碍。

2. 模块化与集成效果

各模块之间的无缝集成确保了从创意概念到引擎就绪资产的整个过程自动化且保持最高保真度。参数控制和高层次艺术调整的级联效果使得创作过程更加灵活和可控。

3. 用户反馈

专业3D艺术家的用户研究显示,Hunyuan3D Studio在边界质量和可编辑性方面显著优于现有方法,生成的UV映射在语义结构上更加合理,提高了纹理处理和资源利用的效率。

研究局限

1. 数据依赖性和质量

尽管Hunyuan3D Studio在多个数据集上进行了广泛训练,但其性能仍高度依赖于训练数据的质量和多样性。对于某些特定领域或风格的数据,可能需要额外的数据收集和标注工作。

2. 复杂场景的处理

在处理极其复杂或多部件的场景时,Hunyuan3D Studio可能会面临性能下降或生成结果不理想的问题。这需要进一步优化算法和提高计算效率。

3. 用户交互的直观性

尽管Hunyuan3D Studio旨在降低3D内容创作的门槛,但某些高级功能仍需要用户具备一定的3D和AI知识。提高用户交互的直观性和易用性是未来的一个重要方向。

未来研究方向

1. 增强数据多样性和质量

继续扩展和优化训练数据集,特别是针对特定领域和风格的数据,以提高模型的泛化能力和生成结果的质量。同时,探索更高效的数据标注和增强方法。

2. 提升复杂场景处理能力

研究更高效的算法和计算架构,以处理极其复杂或多部件的场景。这可能包括引入更先进的注意力机制、层次化生成方法或分布式计算技术。

3. 改进用户交互和体验

设计更加直观和易用的用户界面,降低高级功能的使用门槛。通过引入自然语言处理、手势识别或虚拟现实技术,使用户能够以更自然的方式与Hunyuan3D Studio进行交互。

4. 探索跨领域应用

将Hunyuan3D Studio的应用范围扩展到其他领域,如建筑可视化、产品设计、电影和动画制作等。通过调整和优化模型,以适应不同领域的特定需求和标准。

5. 持续优化和迭代

根据用户反馈和实际需求,持续优化Hunyuan3D Studio的各个模块和整体性能。通过引入新的技术和方法,不断提高资产生成的效率和质量,满足不断变化的市场需求。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐