跨品类虚拟试穿:在任意个人场景中可视化商品

在线购物者虚拟试用商品的技术是一种能够创造沉浸式购物体验的受欢迎技术。例如,将衣服真实地披在购物者图像上,或将家具插入购物者生活空间的图像中。

在服装类别中,这个问题传统上被称为虚拟试穿;而针对任何品类商品在任意个人场景中的更通用问题,则称为"虚拟全试穿"问题。在一篇近期发布于arXiv的论文中,提出了一种名为Diffuse-to-Choose(DTC)的解决方案。这是一种新颖的生成式AI模型,允许用户在任意场景的任意位置无缝插入商品。

用户从个人场景图像和商品图像开始,在场景中绘制掩码以指示模型插入对象的位置。随后模型将物品融入场景,具有真实的角度、光照、阴影等效果。必要时,模型会推断物品的新视角,并保留物品的细粒度视觉标识细节。

技术特性

Diffuse-to-Choose模型具有多个区别于现有工作的特点:

  • 首个解决虚拟全试穿问题的单一模型,适用于广泛产品类别
  • 仅需单张二维参考图像,无需3D模型或多视角图像
  • 支持"野外"图像(如普通手机照片),无需白底或专业影棚图像
  • 在单个云服务实例(NVIDIA A10G,24GB GPU内存)上约6.4秒生成图像

技术架构

Diffuse-to-Choose是一种修复潜在扩散模型,其架构增强可保留产品的细粒度视觉细节。扩散模型通过逐步训练去噪逐渐增加的噪声输入,而潜在扩散模型则在模型的表示(潜在)空间中进行去噪。修复技术通过掩码图像部分,训练潜在扩散修复模型填充掩码区域并进行真实重建。

与大多数修复模型相同,DTC使用U-Net编码器-解码器模型进行扩散建模。U-Net编码器由卷积神经网络组成,将输入图像划分为小像素块并应用滤波器组寻找特定图像特征。编码器每层逐步降低图像表示分辨率,解码器则逐步恢复分辨率。

主要创新是在扩散过程中引入辅助U-Net编码器。该编码器的输入是粗略的复制-粘贴拼贴图,其中商品图像经缩放后插入用户创建的掩码中。虽然这是期望输出的粗略近似,但该编码将保留产品图像的细粒度细节,最终图像重建将整合这些细节。

辅助编码器的输出称为"提示信号",它与主U-Net编码器的输出一起传递到特征线性调制(FiLM)模块,对齐两个编码的特征。随后编码传递到U-Net解码器。

训练与评估

模型在配备NVIDIA A100 40GB GPU的云实例上训练,使用数百万对公共图像数据集。实验比较了DTC在虚拟全试穿任务上与传统图像条件修复模型四个版本的性能,并与专门虚拟试穿任务的最先进模型进行对比。

除基于人工的相似性和语义融合定性评估外,还使用两个量化指标评估性能:CLIP(对比语言-图像预训练)分数和Fréchet起始距离(FID)。在虚拟全试穿任务中,DTC在两个指标上均优于所有四个基线模型,FID比最佳基线提高9%。在虚拟试穿任务中,DTC与基线性能相当:CLIP分数略高(90.14 vs. 90.11),FID略高(5.39 vs. 5.28)。考虑到DTC的通用性,在专门任务上与专用模型性能相当已是重大成就。

实验证明DTC的结果质量与基于每个产品少量样本微调的昂贵方法(如先前的DreamPaint方法)相当,但成本低一个数量级。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐