腾讯混元开源 Motion 1.0 动作生成模型,一句话让虚拟人物动起来
腾讯混元团队发布HY-Motion1.0模型,通过AI实现自然3D动作生成。该模型采用十亿参数DiT架构和流匹配技术,经过三阶段训练(预训练、微调、强化学习),能精准理解文字指令并生成流畅动作。支持200多种动作类别,大幅降低3D动画制作门槛。目前模型已开源,或将开启3D动画大模型时代。
从“动画师的噩梦”说起
你有没有想过这样一个画面——深夜,你盯着屏幕,对着一个静止的 3D 小人,随手打下一句话:
“他慢慢起身,活动肩膀,然后小跑两步。”
下一秒,这个小人真的像真人一样动了起来:没有僵硬的关节,没有奇怪的抖动,动作连贯、自然,甚至有点“灵魂”。这不是动画师加班一晚的成果,而是模型自己“理解”了你的话。

在过去,这可能意味着数天的手工K帧,或者需要昂贵的动捕设备和专业演员。但现在,腾讯混元团队刚刚投下了一枚“重磅炸弹”——HY-Motion 1.0。你只需要在键盘上敲下那行描述,AI就能在几秒钟内为你生成一段丝滑、自然且符合物理规律的3D动作。

它不是“做动画”,而是“听懂你在说什么”
传统 3D 动画像什么?更像是 一帧一帧摆姿势:手抬 10 度,腿转 15 度,慢慢凑出一个动作。而 HY-Motion 1.0 更像一个会听话的演员。你不是在告诉它“关节怎么转”,而是在跟它说一段生活语言:
“跑起来再停下”
“像打球前热身那样活动身体”
“有点着急地走来走去”
模型要做的不是算角度,而是先搞明白一件事:
你脑子里的“画面”,到底是什么?

给AI装上“十亿级”的运动大脑
为什么 HY-Motion 1.0 敢自称“史无前例”?秘诀在于它那颗巨大的“大脑”。
以往的文生动作模型大多像是“偏科生”,要么懂语言但动作僵硬,要么动作顺滑但听不懂复杂指令。腾讯的研究员们首次将 Diffusion Transformer (DiT) 架构扩展到了十亿参数(1B+)规模。

这就像是把一个只会比划几下的小学徒,直接升级成了一个博览群书、见多识广的“运动大师”。配合一种叫作“流匹配”(Flow Matching)的黑科技,模型生成动作的过程不再是“盲目猜测”,而是像一位顶级导航员,在无数种可能的动作路径中,精准地找到最顺滑、最合理的那一条。

它是如何“炼”成的?三层进阶之路
为了让这位“大师”既有天赋又懂礼貌,团队为它量身定制了三个阶段的“魔鬼训练”:
- 海量预训练:
让它“观看”了超过3000小时的动作数据。这就像让小孩子先看遍世间所有的走路、跑步、跳舞,建立起对人类运动的初步认知。
- 精细化微调:
挑选出400小时最顶尖、最干净的动作素材进行一对一教学。这一步让它学会了什么是“优雅”,什么是“标准”,解决掉那些脚打滑、身体穿模的低级错误。
- 强化学习:
最后,引入了人类的反馈。这就像是在表演结束后,台下的观众会鼓掌或喝彩。通过这种方式,AI学会了不仅仅是做出动作,而是做出“让人类看起来觉得舒服且准确”的动作。

这个模型的成长过程,非常像人学技能:
第一阶段:大量“见世面”
不追求完美,只求见得多。就像小孩先模仿大人走路,姿势可能不标准,但大概对。
第二阶段:精修动作细节
只用高质量数据,纠正抖动、滑步、不合理的姿势。相当于有人认真教你:“这里不该这样动。”
第三阶段:引入人类反馈
人来告诉模型:“这个动作看着顺不顺?”“像不像真人?”“符不符合我刚才说的那句话?”这一步非常重要——因为真实世界的“好不好看”,公式是写不出来的。

它最厉害的地方:真的“听懂指令”很多文生动画模型都有一个老毛病:字是字,动作是动作,看起来像“各干各的”。比如你说“左手挥动”,结果模型挥了右手,或者两只手一起动。
HY-Motion 1.0 在这点上提升非常明显。你可以把它理解成:不是把文字翻译成动作标签,而是直接把“意思”对齐到身体。就像你对朋友说一句话,朋友不是逐字解析,而是立刻知道你想让他怎么动。

核心技术要点:像呼吸一样自然的AI动画
为了方便大家理解,我们把 HY-Motion 1.0 的硬核技术拆解成了几个日常小例子:
- 1. 十亿参数 DiT 架构:
-
就像是从只能存几首歌的“老式MP3”升级到了拥有海量曲库的“云端音乐厅”。参数越多,AI能记住和组合的动作姿态就越丰富,再复杂的舞蹈也难不倒它。

- 2. 系统化三阶段训练
-
就像培养一名职业运动员。第一步是大量的日常身体素质训练(预训练),第二步是教练纠正技术动作细节(微调),第三步是通过正式比赛的胜负反馈来打磨心理和应变能力(强化学习)。

- 3. 极速流匹配机制:
-
就像是“最短路径导航”。当你要从 A 点(静止)到 B 点(挥手),流匹配能确保角色的每一块肌肉移动都是最合理、最省力且最美观的,而不是僵硬地瞬间移动。

- 4. 全门类动作覆盖:
-
它不是只会走和跑。它就像一本“动作百科全书”,涵盖了从体育竞技、日常生活到游戏角色特有的战斗招式等 200 多种动作类别。

未来的无限可能
HY-Motion 1.0 的出现,意味着高质量 3D 内容创作的门槛被彻底打碎了。未来的独立游戏开发者,也许只需一个人、一句话,就能创造出媲美 3A 大作的角色动画。

目前,腾讯已经将这款模型全面开源。这是否意味着 3D 动画的“大模型时代”已经真正开启?目前项目已经可以在 hugging face 上面体验。
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技
动画详解transformer 在线视频教程


更多推荐


所有评论(0)