一、工具简介

通义万相是阿里云推出的 AI 绘画创作大模型,基于阿里自研的组合式生成模型 Composer 架构,支持文本生成图像、相似图像生成、图像风格迁移等功能。该工具具备高度可控性和极大自由度,可将文字描述转化为水彩、油画、中国画、二次元等多种风格的图像,适用于艺术设计、电商营销、游戏开发等场景。

二、安装与配置

2.1 网页版使用(推荐普通用户)

无需安装,直接通过浏览器访问

  1. 打开通义万相官网:通义万相 | 领先的AI视频与图像生成模型
  2. 使用阿里云账号登录(无账号需先注册并完成实名认证)
  3. 每日登录可领取 50 灵感值(单次生成消耗 1 点,可生成 4 张图片)

2.2 本地部署(开发者 / 高级用户)

硬件要求

  • 基础配置(1.3B 模型):

    • 显卡:NVIDIA GPU ≥8GB 显存(如 RTX 3060)
    • 内存:≥16GB RAM
    • 存储:≥50GB 空闲空间
    • 系统:Windows 10/11 64 位、Linux(Ubuntu 20.04+)
  • 高级配置(14B 模型):

    • 显卡:RTX 4090(24GB 显存)或 A100
    • 内存:≥64GB RAM
    • CUDA 版本:≥12.1

部署步骤

  1. 下载模型:

    bash

    git clone https://github.com/Wan-Video/Wan2.1.git
    cd Wan2.1
    pip install -r requirements.txt
    
  2. 配置 API-KEY:

    bash

    export DASHSCOPE_API_KEY="你的API密钥"
    
  3. 启动服务:

    bash

    python app.py --model wanx2.1-t2v-turbo
    

三、功能与操作指南

3.1 核心功能

功能 描述
文生图 输入文本描述生成图像,支持水彩、油画、二次元等 30 + 风格
图生图 上传参考图生成相似风格图像,支持构图 / 色彩迁移
风格迁移 将原图转换为指定风格(如将照片转为水墨画)
局部重绘 圈选图像区域并修改(如 "给人物换红色衣服")
图像扩展 扩展画布并补全新区域(如将风景图向两侧延伸)
文生视频 输入文本生成 5-10 秒视频,支持 1080P 分辨率

3.2 基础操作流程(网页版)

文生图步骤:
  1. 在左侧操作台选择「文本生成图像」
  2. 输入提示词(建议格式:主体 + 特征 + 场景 + 风格 + 参数)
    ▶ 示例:"一位身着汉服的少女,站在樱花树下抚琴,新海诚风格,8K分辨率,柔光效果"
  3. 选择风格(如 "二次元")和尺寸(1:1/16:9/9:16)
  4. 点击「生成创意画作」,等待 10-30 秒获取结果
  5. 对满意结果点击「下载原图」,不满意可「再次生成」或「复用创意」
提示词优化技巧:
  • 结构化描述:主体→动作→环境→风格→画质
    ▶ 例:"赛博朋克风格的重庆洪崖洞,雨夜,霓虹灯倒影,8K,细节丰富"
  • 权重调整:使用()提升关键词优先级,如"(中国风:1.2) 山水画"
  • 反向提示:输入"低质量,模糊,变形"避免生成瑕疵

3.3 高级功能详解

局部重绘:
  1. 上传图像并点击「局部重绘」
  2. 用画笔圈选需修改区域(如人物衣服)
  3. 输入提示词:"红色旗袍,丝绸质感"
  4. 调整画笔大小和强度(建议 0.6-0.8)
  5. 点击生成,仅修改选中区域
图像扩展:
  1. 上传图像后选择「图像扩展」
  2. 设置扩展方向(左 / 右 / 上 / 下)和比例(如 200%)
  3. 输入提示词补充新区域内容
  4. 生成后自动拼接原图与扩展部分

四、模型特点与优势

4.1 技术特性

  • 中文优化:精准理解 "水墨丹青"" 工笔重彩 " 等本土化表达
  • 物理模拟:支持碰撞、反弹等真实物理效果(如 "雨滴落在伞上溅起水花")
  • 长视频生成:通过 Wan-VAE 编解码器支持无限长 1080P 视频
  • 风格混合:可组合多种风格(如 "水墨风格的赛博朋克城市")

4.2 与竞品对比

特性 通义万相 Midjourney Stable Diffusion
中文支持 ✅ 原生优化 ❌ 需英文提示词 ⚠️ 需插件支持
本地化部署 ✅ 支持(开源模型) ❌ 仅云端 ✅ 完全开源
风格多样性 30+(侧重国风) 50+(艺术风格突出) 100+(社区模型丰富)
免费额度 50 次 / 天(网页版) ❌ 付费订阅 ✅ 完全免费

五、常见问题解决

5.1 生成失败

  • 提示 "余额不足":阿里云账户需充值≥100 元(按量付费)
  • 服务器负载高:避开高峰时段(19:00-22:00)或使用队列功能
  • 敏感词过滤:替换 "枪"" 爆炸 "等词为" 武器 ""能量爆发"

5.2 图像质量问题

  • 模糊 / 变形:提高提示词相关性(CFG Scale=8-12)
  • 风格偏差:明确指定风格关键词(如 "油画风格,梵高")
  • 细节缺失:添加 "超高细节,8K,大师杰作" 等增强词

5.3 版权与商用

  • 版权归属:生成内容版权归用户所有,可商用
  • 开源模型:基于 Apache 2.0 协议,二次开发需保留原声明
  • 限制条款:禁止生成侵权、违法内容(如明星肖像、政治敏感题材)

六、最佳实践案例

6.1 电商海报设计

提示词
"45度仰拍,乐高积木风格的运动鞋广告,产品悬浮,背景为城市街道,蓝色主调,高清渲染,比例3:4"

6.2 国风插画

提示词
"敦煌飞天风格少女,飘带飞舞,手持莲花,背景祥云,工笔重彩,8K分辨率"

6.3 视频生成

提示词
"平拍一位女性花样滑冰运动员旋转,紫色滑冰服,冰场反光,镜头跟随动作,720P,3秒"

七、资源与社区

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐