寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

2024-07-30 08:57

只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子，还是套装，各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外，CatVTON 还可以实现人物 A 到人物 B 的

只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~

或者让寡姐带货国风 Polo 衫~

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

就是二次元换装也不在话下。

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。

来看看更多效果。

用扩散模型进行虚拟试衣

CatVTON 可以实现传统平铺服装图到人物的换装。

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

不管是上衣、裤子、裙子，还是套装，各种不同品类服装都可以。

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

其形状和纹理都能保持较高的一致性。

另外，CatVTON 还可以实现人物 A 到人物 B 的换装。

无需显式地指定类别，根据 Mask 的不同即可完成目标服装的试穿，支持单独的上衣、裤子、裙子或者全身多件服装同时更换。

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

既然如此，那又是如何实现的呢？

轻量化模型架构

CatVTON 在功能上丰富多样，但其模型架构却十分简洁高效：

2 个网络模块（VAE+UNet）

899.06M 总参数量

< 8G 推理显存（输出图像 1024×768 ）

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

轻量化的架构来源于 CatVTON 对现有方法模块冗余的观察：

基于 Warping 的方法依靠几何匹配对服装进行形变再利用试穿模块融合，结果生硬不自然；

基于扩散模型的方法引入 ReferenceNet，加重了训练和推理的负担。

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

具体而言，CatVTON 通过在输入上把人物、服装在通道维度拼接（Concatenate），在结构上摆脱了对额外的 ReferenceNet 的依赖，跳过了对图像虚拟试衣来说没有显著帮助的文本交叉注意力，同时也不需要任何额外的图像编码器来辅助生成。

下表详细地比较了不同方法与 CatVTON 的模块数量、参数量、可训练参数量、显存占用、推理条件。

在网络模块上，CatVTON 只需要 VAE+UNet，无需任何额外的编码器；在模型总参数量上，CatVTON 比其他方法至少缩减了 44% ；在显存占用上，CatVTON 也只有其他方法的一半甚至更低，体现了 CatVTON 在模型架构轻量化上的优势。

模型高效性相关项详细比较

▲ 模型高效性相关项详细比较

在训练上，CatVTON 探究了在将预训练扩散模型迁移到 TryOn 任务时去噪 UNet 中真正起作用的模块。

首先，去噪 UNet 在结构上是由不同特征尺度的 ResNet 和 Transformer Blocks 堆叠而成（如下图）。其中 ResNet 是卷积网络，具有空间不变性，适用于特征的提取，并不负责跨空间的特征交互，这一部分在扩散模型进行大规模预训练时，已经具备了足够的特征编码能力，因此与迁移到 TryOn 任务关联性不强。

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

Transformer Block 内部结构又可以细化为三个部分：Self Attention, Cross Attention 和 FFN。其中 Cross Attention 在 T2I 任务中用于与文本信息交互，FFN 起到特征映射的作用，因此与服装、人物特征交互最相关的便是 Self Attention。

理论上确定了需要训练的模块后，在实验上，CatVTON 文中还进行了消融，发现对 UNet、Transformer Block 和 Self Attention 分别进行解锁训练，其可视化结果并没有明显的差异，同时在指标上也十分接近，验证了“Self Attention 是将预训练扩散模型迁移到 TryOn 任务的关键模块”的假设。

最后通过理论和实验锁定的 Self Attention 部分，只有 49.57M 参数，仅占总参数量 5.71% 的部分，对其进行微调，就可以实现逼真的试穿效果，在上一节表格中可以看到，相较于其他方法，CatVTON 将可训练参数量减少了 10 倍以上。

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

最后总结，CatVTON 重新思考和设计了基于扩散模型的虚拟试穿框架，将多任务、多品类的虚拟试衣集成到同一模型中，以轻量化的框架和参数高效的训练策略实现了 SOTA 的试穿效果，降低了模型的训练、推理计算需求，更有利于虚拟试衣模型走向落地与应用。

项目主页：

https://zheng-chong.github.io/CatVTON

论文地址:

https://arxiv.org/abs/2407.15886

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技，原标题《寡姐带货国风 Polo 衫，马斯克穿牛仔走红毯！虚拟试衣新框架火了，只需两张图 30 秒即生成》

颜水成挂帅，昆仑万维2050全球研究院联合NUS、NTU发布Vitron，奠定通用视觉多模态大模型终极形态

近日，由颜水成教授带队，昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。这是一款重磅的通用视觉多模态大模型，支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，解决了困扰大语言模型产业已久的图像/视频模型割裂问题，提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型，为下一代通用视觉大模型的终极形态奠定了基础，也标志着大模型迈向通用人工智能（AGI）的又一大步。Vitron作为一个统一

4/26/2024 2:49:00 PM

新闻助手

Meta对Transformer架构下手了：新注意力机制更懂推理

作者表示，这种全新注意力机制（Sytem 2 Attention）或许你也需要呢。大型语言模型（LLM）很强已经是一个不争的事实，但它们有时仍然容易犯一些简单的错误，表现出较弱的推理能力。举个例子，LLM 可能会因不相关的上下文或者输入提示中固有的偏好或意见做出错误的判断。后一种情况表现出的问题被叫做「阿谀奉承」，即模型与输入保持一致。有没有方法来缓解这类问题呢？有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决，但这些无法从根本上解决问题。近日 Meta 研究者在论文《System 2 Attentio

11/24/2023 2:56:00 PM

机器之心

Softmax注意力与线性注意力的优雅融合，Agent Attention推动注意力新升级

来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。近年来，视觉 Transformer 模型得到了极大的发展，相关工作在分类、分割、检测等视觉任务上都取得了很好的效果。然而，将 Transformer 模型应用于视觉领域并不是一件简单的事情。与自然语言不同，视觉图片中的特征数量更多。由于 Softmax 注意力是平方复杂度，直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题，先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。例如，设计稀疏注

12/25/2023 3:42:00 PM

LEAPLab

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

用扩散模型进行虚拟试衣

轻量化模型架构

相关资讯

颜水成挂帅，昆仑万维2050全球研究院联合NUS、NTU发布Vitron，奠定通用视觉多模态大模型终极形态

Meta对Transformer架构下手了：新注意力机制更懂推理

Softmax注意力与线性注意力的优雅融合，Agent Attention推动注意力新升级