从“动画师的噩梦”说起

你有没有想过这样一个画面——深夜,你盯着屏幕,对着一个静止的 3D 小人,随手打下一句话:

“他慢慢起身,活动肩膀,然后小跑两步。”

下一秒,这个小人真的像真人一样动了起来:没有僵硬的关节,没有奇怪的抖动,动作连贯、自然,甚至有点“灵魂”。这不是动画师加班一晚的成果,而是模型自己“理解”了你的话。

图片

在过去,这可能意味着数天的手工K帧,或者需要昂贵的动捕设备和专业演员。但现在,腾讯混元团队刚刚投下了一枚“重磅炸弹”——HY-Motion 1.0。你只需要在键盘上敲下那行描述,AI就能在几秒钟内为你生成一段丝滑、自然且符合物理规律的3D动作。

图片

它不是“做动画”,而是“听懂你在说什么”

传统 3D 动画像什么?更像是 一帧一帧摆姿势:手抬 10 度,腿转 15 度,慢慢凑出一个动作。而 HY-Motion 1.0 更像一个会听话的演员。你不是在告诉它“关节怎么转”,而是在跟它说一段生活语言

“跑起来再停下”
“像打球前热身那样活动身体”
“有点着急地走来走去”
模型要做的不是算角度,而是先搞明白一件事:
你脑子里的“画面”,到底是什么?

图片

给AI装上“十亿级”的运动大脑

为什么 HY-Motion 1.0 敢自称“史无前例”?秘诀在于它那颗巨大的“大脑”。

以往的文生动作模型大多像是“偏科生”,要么懂语言但动作僵硬,要么动作顺滑但听不懂复杂指令。腾讯的研究员们首次将 Diffusion Transformer (DiT) 架构扩展到了十亿参数(1B+)规模。

图片

这就像是把一个只会比划几下的小学徒,直接升级成了一个博览群书、见多识广的“运动大师”。配合一种叫作“流匹配”(Flow Matching)的黑科技,模型生成动作的过程不再是“盲目猜测”,而是像一位顶级导航员,在无数种可能的动作路径中,精准地找到最顺滑、最合理的那一条。

图片

它是如何“炼”成的?三层进阶之路

为了让这位“大师”既有天赋又懂礼貌,团队为它量身定制了三个阶段的“魔鬼训练”:

  1. 海量预训练:

     让它“观看”了超过3000小时的动作数据。这就像让小孩子先看遍世间所有的走路、跑步、跳舞,建立起对人类运动的初步认知。

  2. 精细化微调:

     挑选出400小时最顶尖、最干净的动作素材进行一对一教学。这一步让它学会了什么是“优雅”,什么是“标准”,解决掉那些脚打滑、身体穿模的低级错误。

  3. 强化学习:

     最后,引入了人类的反馈。这就像是在表演结束后,台下的观众会鼓掌或喝彩。通过这种方式,AI学会了不仅仅是做出动作,而是做出“让人类看起来觉得舒服且准确”的动作。

图片

这个模型的成长过程,非常像人学技能:

第一阶段:大量“见世面”
不追求完美,只求见得多。就像小孩先模仿大人走路,姿势可能不标准,但大概对。

第二阶段:精修动作细节
只用高质量数据,纠正抖动、滑步、不合理的姿势。相当于有人认真教你:“这里不该这样动。”

第三阶段:引入人类反馈
人来告诉模型:“这个动作看着顺不顺?”“像不像真人?”“符不符合我刚才说的那句话?”这一步非常重要——因为真实世界的“好不好看”,公式是写不出来的。

图片

它最厉害的地方:真的“听懂指令”很多文生动画模型都有一个老毛病:字是字,动作是动作,看起来像“各干各的”。比如你说“左手挥动”,结果模型挥了右手,或者两只手一起动。

HY-Motion 1.0 在这点上提升非常明显。你可以把它理解成:不是把文字翻译成动作标签,而是直接把“意思”对齐到身体。就像你对朋友说一句话,朋友不是逐字解析,而是立刻知道你想让他怎么动

图片

核心技术要点:像呼吸一样自然的AI动画

为了方便大家理解,我们把 HY-Motion 1.0 的硬核技术拆解成了几个日常小例子:

  • 1. 十亿参数 DiT 架构:
  • 就像是从只能存几首歌的“老式MP3”升级到了拥有海量曲库的“云端音乐厅”。参数越多,AI能记住和组合的动作姿态就越丰富,再复杂的舞蹈也难不倒它。

图片

  • 2. 系统化三阶段训练
  • 就像培养一名职业运动员。第一步是大量的日常身体素质训练(预训练),第二步是教练纠正技术动作细节(微调),第三步是通过正式比赛的胜负反馈来打磨心理和应变能力(强化学习)。

图片

  • 3. 极速流匹配机制:
  • 就像是“最短路径导航”。当你要从 A 点(静止)到 B 点(挥手),流匹配能确保角色的每一块肌肉移动都是最合理、最省力且最美观的,而不是僵硬地瞬间移动。

图片

  • 4. 全门类动作覆盖:
  • 它不是只会走和跑。它就像一本“动作百科全书”,涵盖了从体育竞技、日常生活到游戏角色特有的战斗招式等 200 多种动作类别。

图片

未来的无限可能

HY-Motion 1.0 的出现,意味着高质量 3D 内容创作的门槛被彻底打碎了。未来的独立游戏开发者,也许只需一个人、一句话,就能创造出媲美 3A 大作的角色动画。

图片

目前,腾讯已经将这款模型全面开源。这是否意味着 3D 动画的“大模型时代”已经真正开启?目前项目已经可以在 hugging face 上面体验。

更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技

 动画详解transformer  在线视频教程 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐