CMU的朱俊彦团队已经研发出一种新的产品，它可以处理512x512的图像数据，只需要0.11秒的时间。

2024-03-24 热点资讯关注公众号

机器之心报道

：陈萍、杜伟

可玩性极强！

简笔素描一键变身多风格画作，还能添加额外的描述，这在 CMU、Adobe 联合推出的一项研究中实现了。

之一为 CMU 助理教授朱俊彦，其团队在 ICCV 2021 会议上发表过一项类似的研究：仅仅使用一个或数个手绘草图，即可以自定义一个现成的 GAN 模型，进而输出与草图匹配的图像。

论文地址：https://arxiv.org/pdf/2403.12036.pdf

GitHub 地址：https://github.com/GaParmar/img2img-turbo

试玩地址：https://huggingface.co/spaces/gparmar/img2img-turbo-sketch

论文One-Step Image Translation with Text-to-Image Models

效果如何？我们上手试玩了一番，得出的结论是：可玩性非常强。其中输出的图像风格多样化，包括电影风、3D 模型、动画、数字艺术、摄影风、像素艺术、奇幻画派、霓虹朋克和漫画。

prompt 为「鸭子」。

prompt 为「一个草木环绕的小房子」。

prompt 为「打篮球的中国男生」。

prompt 为「肌肉男兔子」。

在这项工作中，研究者对条件扩散模型在图像合成应用中存在的问题进行了针对性改进。这类模型使用户可以根据空间条件和文本 prompt 生成图像，并对场景布局、用户草图和人体姿势进行精确控制。

但是问题在于，扩散模型的迭代导致推理速度变慢，限制了实时应用，比如交互式 Sketch2Photo。此外模型训练通常需要大规模成对数据集，给很多应用带来了巨大成本，对其他一些应用也不可行。

为了解决条件扩散模型存在的问题，研究者引入了一种利用对抗学习目标来使单步扩散模型适应新任务和新领域的通用方法。具体来讲，他们将 vanilla 潜在扩散模型的各个模块整合到拥有小的可训练权重的单个端到端生成器网络，从而增强模型保留输入图像结构的能力，同时减少过拟合。

研究者推出了 CycleGAN-Turbo 模型，在未成对设置下，该模型可以在各种场景转换任务中优于现有基于 GAN 和扩散的方法，比如昼夜转换、添加或移除雾雪雨等天气效果。

同时，为了验证自身架构的通用性，研究者对成对设置进行实验。结果显示，他们的模型 pix2pix-Turbo 实现了与 Edge2Image、Sketch2Photo 不相上下的视觉效果，并将推理步骤缩减到了 1 步。

总之，这项工作表明了，一步式预训练文本到图像模型可以作为很多下游图像生成任务的强大、通用主干。

方法介绍

该研究提出了一种通用方法，即通过对抗学习将单步扩散模型（例如 SD-Turbo）适配到新的任务和领域。这样做既能利用预训练扩散模型的内部知识，同时还能实现高效的推理（例如，对于 512x512 图像，在 A6000 上为 0.29 秒，在 A100 上为 0.11 秒）。

此外，单步条件模型 CycleGAN-Turbo 和 pix2pix-Turbo 可以执行各种图像到图像的转换任务，适用于成对和非成对设置。CycleGAN-Turbo 超越了现有的基于 GAN 的方法和基于扩散的方法，而 pix2pix-Turbo 与最近的研究（如 ControlNet 用于 Sketch2Photo 和 Edge2Image）不相上下，但具有单步推理的优势。

添加条件输入

为了将文本到图像模型转换为图像转换模型，首先要做的是找到一种有效的方法将输入图像 x 合并到模型中。

将条件输入合并到 Diffusion 模型中的一种常用策略是引入额外的适配器分支（adapter branch），如图 3 所示。

具体来说，该研究初始化第二个编码器，并标记为条件编码器（Condition Encoder）。控制编码器（Control Encoder）接受输入图像 x，并通过残差连接将多个分辨率的特征映射输出到预训练的 Stable Diffusion 模型。该方法在控制扩散模型方面取得了显著成果。

如图 3 所示，该研究在单步模型中使用两个编码器（U-Net 编码器和条件编码器）来处理噪声图像和输入图像遇到的挑战。与多步扩散模型不同，单步模型中的噪声图直接控制生成图像的布局和姿态，这往往与输入图像的结构相矛盾。因此，解码器接收到两组代表不同结构的残差特征，这使得训练过程更加具有挑战性。

直接条件输入。图 3 还说明了预训练模型生成的图像结构受到噪声图 z 的显着影响。基于这一见解，该研究建议将条件输入直接馈送到网络。为了让主干模型适应新的条件，该研究向 U-Net 的各个层添加了几个 LoRA 权重（见图 2）。

保留输入细节

潜在扩散模型 (LDMs) 的图像编码器通过将输入图像的空间分辨率压缩 8 倍同时将通道数从 3 增加到 4 来加速扩散模型的训练和推理过程。这种设计虽然能加快训练和推理速度，但对于需要保留输入图像细节的图像转换任务来说，可能并不理想。图 4 展示了这一问题，我们拿一个白天驾驶的输入图像（左）并将其转换为对应的夜间驾驶图像，采用的架构不使用跳跃连接（中）。可以观察到，如文本、街道标志和远处的汽车等细粒度的细节没有被保留下来。相比之下，采用了包含跳跃连接的架构（右）所得到的转换图像在保留这些复杂细节方面做得更好。

为了捕捉输入图像的细粒度视觉细节，该研究在编码器和解码器网络之间添加了跳跃连接（见图 2）。具体来说，该研究在编码器内的每个下采样块之后提取四个中间激活，并通过一个 1×1 的零卷积层处理它们，然后将它们输入到解码器中对应的上采样块。这种方法确保了在图像转换过程中复杂细节的保留。

实验

该研究将 CycleGAN-Turbo 与之前的基于 GAN 的非成对图像转换方法进行了比较。从定性分析来看，如图 5 和图 6 显示，无论是基于 GAN 的方法还是基于扩散的方法，都难以在输出图像真实感和保持结构之间达到平衡。

该研究还将 CycleGAN-Turbo 与 CycleGAN 和 CUT 进行了比较。表 1 和表 2 展示了在八个无成对转换任务上的定量比较结果。

CycleGAN 和 CUT 在较简单的、以对象为中心的数据集上，如马→斑马（图 13），展现出有效的性能，实现了低 FID 和 DINO-Structure 分数。本文方法在 FID 和 DINO-Structure 距离指标上略微优于这些方法。

如表 1 和图 14 所示，在以对象为中心的数据集（如马→斑马）上，这些方法可以生成逼真的斑马，但在精确匹配对象姿势上存在困难。

在驾驶数据集上，这些方法的表现明显更差，原因有三：（1）模型难以生成包含多个对象的复杂场景，（2）这些方法（除了 Instruct-pix2pix）需要先将图像反转为噪声图，引入潜在的人为误差，（3）预训练模型无法合成类似于驾驶数据集捕获的街景图像。表 2 和图 16 显示，在所有四个驾驶转换任务上，这些方法输出的图像质量较差，并且不遵循输入图像的结构。

在这篇论文中，研究人员成功地开发出了一种名为 One-Step Image Translation with Text-to-Image Models 的新方法，它可以自动生成图像，并根据给定的目标和背景快速调整生成图像的。这项工作展示了该方法在许多下游图像生成任务中的强大通用性。
研究人员使用了一个通用的方法，称为“对抗学习”，来使单步扩散模型（例如 SD-Turbo）适应新任务和领域。这意味着该方法利用预训练扩散模型的内部知识，并能够实现实时应用，如交互式 Sketch2Photo。此外，研究人员还引入了一个对抗损失函数，可以有效地克服过拟合的问题。
实验结果也证明了这一点，该方法在大多数情况下都可以提供与当前最先进的 GAN 和扩散方法相当的视觉效果。然而，他们发现，即使是在所有四个驾驶转换任务上，这些方法也无法生成与输入图像完全匹配的街景图像。
总的来说，这篇论文揭示了一种全新的生成图像的技术，可以应用于各种复杂的图像生成任务。然而，它仍需要进一步的研究和优化，以便更好地满足不同的需求。

上一篇:财经三人谈：AI“复活”逝者，哪些边界不应逾越
下一篇:京东宠物直播间背后，离不开采销“操盘手”

更多更酷的内容分享

猜你感兴趣

英唐智控：光刻机正常运作用于光电转换和图像处理的模拟IC和数字IC产品的研发生产

英唐智控最近宣布五台光刻机正常运作，并表示可用于模拟IC和数字IC产品的研发生产，包括0.35μm工艺。

热点资讯 06.12

提升AI产品经理的决策力：为何数据分析能力至关重要

习别人的实践经验，通过阅读专业书籍和论文提高自己对数据处理和分析的理解。 1. 理论学习：AI产品经理需要了解数据的收集和处理的基础理论和方法，包括数据的特性、处理流程、异常检测等。 2. 实践操作：通过实际参与AI项目，AI产品经理可以真实体验到数据分析的实际运用，进一步加深对其技术的理解和应用能力的提升。 3. 模型评估：深度学习和机器学习等领域是AI产品经理数据分析的重要方向，因此，提升数据分析能力的同时也需要重视模型评估的技巧和方法。 4. 预测性分析：通过对历史数据的分析，AI产品经理可以预测未来的趋势和行为，这对于业务决策和项目规划非常有帮助。 5. 数据可视化：数据分析不仅仅是理论知识的应用，还需要有良好的数据可视化能力，可以通过图表和图形等方式清晰地展示数据分析的结果，使得决策更加直观和准确。

热点资讯 10.09

2024年打春时间解析：精确到秒的最新数据，以及它在2024年的方位定位

2024年打春时间为2月4日16点26分53秒，注意其中的“开始时间”和“结束时间”。

生活常识 04.15

2024年打春时间解析：精确到秒的最新数据，以及它在2024年的方位定位

2024年打春时间为2月4日16点26分53秒，注意其中的“开始时间”和“结束时间”。

生活常识 04.15

外交部回应日本试行免签一事

中国发布免签政策，期望日方同其保持友好合作关系；此次态度转变源于对中国与日本之间人员往来便利化需求的重视。相关人士认为，希望通过加强互惠互利的合作，推动中日关系改善和稳定。

热点资讯 11.26

东欧战火中的沉睡重燃：这款经典游戏续作即将上映

标题：TGA 之后，《黑神话：悟空》脱颖而出摘要： TGA 之后，《黑神话：悟空》以其独特的故事背景和高质量的战斗体验备受好评，成为了近期最热门的游戏之一。这款游戏是由波兰开发商 Nostalgia Interactive 制作并发行的，与粉丝们的期待相符。

热点资讯 11.26

暴雪改编众多热门游戏，成功打造《魔兽》电影版，微软看中这一可能性

视频到线下音乐会等全方位的庆典形式。微软对游戏改编的电影电视剧产生了很大兴趣。 "魔兽世界"的游戏文化现象源于2004年，至今已吸引了超过2.4亿玩家并发行了多个资料片和经典怀旧服版本。为了让庆祝"魔兽世界"20周年，团队早在一年前便策划了一系列大型活动，其中包含线上线下庆祝活动。

热点资讯 11.26

独具匠心的王者皮肤选择：盘点最令人心动的3款，裴擒虎与梅西独享特权

王者荣耀如今已经有九款皮肤基本可以宣布绝版，包括神秘女侠、梅西、夜礼服假面以及永恒水手月亮等。这九款皮肤中有八款属于联动皮肤，均未得到官方认证为绝版。其中，唯一获得官方认证为绝版的皮肤为雅典娜的神奇女侠。虽然这八款皮肤返场概率微乎其微，但由于版权原因无法再次获取，因此玩家对它们的怀念之情无法用言语表达。此外，游戏还存在其他几位备受玩家关注的绝版皮肤，如裴擒虎的梅西、雅典娜的神奇女侠等。尽管如此，雅典娜的神奇女侠仍未回归，这让许多玩家感到惋惜。

热点资讯 11.26

知情人士透露：Tian和Peyz加入LNG，新援队伍实力升级！教练官方声明发布

最近关于LPL转会期的消息沸沸扬扬，知名爆料人涵艺透露Peyz大概率加入JDG后，第二天又传出新消息，Peyz和Tian将加入LNG，但还需进一步了解新名单详情。综合当前各路传闻，可能Scout和PEyz已经成功绑定成为LNG的一员，而JDDG原名单上有Ale、Xun等人的位置也将发生变化。考虑到团队风格、国际经验等因素，这一变化可能导致赛事格局有所改变。不过，教练方面仍需加强人员管理和培养新人能力。最终还需等待更多官方消息确认。

热点资讯 11.26

全新赛季，Home Man教练即将签约新经纪公司，参与TES项目训练，专注培养顶级电竞选手369！

homme教练在结束了长达一年的休息后，成功与经纪公司Supergiant签订合约，有望重返教练岗位。他在2012年以Ozone选手身份开始职业生涯，转行为教练后带领SSW夺得了世界赛冠军。之后，他曾执教Vici Gaming和WE，并在2017年进入LPL教练席，带领队伍夺得春季赛冠军、MSI冠军、2023年LPL夏季赛冠军。此外，他也曾被评为2022年和2023年LPL最佳教练。他近期有可能加盟tes并有望成为tes教练。

热点资讯 11.26

多角度解析：蔚来否认收购传言，中国汽车品牌整合趋势明显!

长安汽车总裁王俊预言，未来中国汽车品牌将面临关闭或转型。而蔚来汽车辟谣称比亚迪与蔚来汽车将合作成立比未来汽车集团的消息不实。中国新能源汽车行业正从群雄并起向整合经营过渡。如果把蔚来的角色换成哪吒或者某个吊车尾的新势力品牌，事情是不是就更有几分可信度；如果把蔚来换成一年前的高合，你会乐得傍上比亚迪这条大腿，把高合卖一个好价钱。当前中国新能源品牌数量众多，但只有极少数还在活跃。这些品牌的未来发展趋势值得深思。

热点资讯 11.26