近日,阿里巴巴对其开源视频生成模型通义万相进行了重要升级,正式发布Wan2.2-S2V版本。该模型仅需一张静态图片和一段音频,即可生成口型精准、表情自然的电影级数字人视频,显著提升了视频的真实感与生成质量。

考虑到音频制作对普通用户来说仍有一定门槛,笔者基于之前研究的 Fay 数字人技术框架,并结合 Wan2.2-S2V 的能力,搭建了一个集文本转语音(TTS)、语音克隆与视频合成于一体的智能影音系统。以下是该系统的详细介绍:

1. 音频合成部分

在对比多个开源 TTS 项目后,笔者选择了 jianchang512/ChatTTS-ui 作为系统的核心。用户只需输入文本或上传 TXT 文档,点击“声音合成”按钮,即可快速生成 Wan2.2-S2V 所需的音频输入。

为了满足高级用户的个性化需求,系统在高级设置中保留了原始 ChatTTS 的自定义参数。同时,笔者还集成了 OpenVoice 项目,实现了强大的语音克隆功能。用户只需上传一段 10 秒以上的音频文件,系统便能自动提取并复用该音色,极大地扩展了音色的可玩性。

2. 视频生成部分

音频制作完成后,用户可以自行上传一张静态图片作为 Wan2.2-S2V 的另一项输入。点击生成同声视频后,系统将通过阿里云接口启动合成任务。根据笔者的测试,视频生成时长与视频长度大致呈 1:12 的关系,这意味着生成一个 10 秒的视频大约需要 2 分钟。

Wan2.2-S2V 任务生成接口请求示例:

curl 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/' \
 --header 'X-DashScope-Async: enable' \
 --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
 --header 'Content-Type: application/json' \
 --data '{
     "model": "wan2.2-s2v",
     "input": {
            "image_url": "https://img.alicdn.com/imgextra/i3/O1CN011FObkp1T7Ttowoq4F_!!6000000002335-0-tps-1440-1797.jpg",
            "audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/iaqpio/input_audio.MP3"
        },
        "parameters": {
            "resolution": "480P"
        }
    }'

注:image_urlaudio_url 均需使用公网 IP,可通过自行部署 OSS 服务来解决。

未来展望

目前,通过 API 接口生成的视频无法像在 ComfyUI 中那样利用 ControlNet 等工具精确控制人物动作。未来的优化方向可以考虑通过 API 方式调用 ComfyUI,以实现更自由、更具创意的视频生成效果。

您可以参考这篇文章了解如何通过 API 调用 ComfyUI 的原生接口: https://blog.yuqingteck.com/archives/apifang-shi-diao-yong-comfyuiyuan-sheng-jie-kou

依据国家网信办《人工智能生成合成内容标识办法》的要求,AI生成内容需要进行打标,您可以来参考这篇文章了解如何给音视频文件打标:https://blog.yuqingteck.com/archives/9yue-1ri-qi-aisheng-cheng-he-cheng-nei-rong-bi-xu-tian-jia-biao-shi

文中最终视频生成效果见资源绑定。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐