CMU的朱俊彦团队已经研发出一种新的产品,它可以处理512x512的图像数据,只需要0.11秒的时间。

2024-03-24 热点资讯 关注公众号

机器之心报道

:陈萍、杜伟

可玩性极强!

简笔素描一键变身多风格画作,还能添加额外的描述,这在 CMU、Adobe 联合推出的一项研究中实现了。

之一为 CMU 助理教授朱俊彦,其团队在 ICCV 2021 会议上发表过一项类似的研究:仅仅使用一个或数个手绘草图,即可以自定义一个现成的 GAN 模型,进而输出与草图匹配的图像。

论文地址:https://arxiv.org/pdf/2403.12036.pdf

GitHub 地址:https://github.com/GaParmar/img2img-turbo

试玩地址:https://huggingface.co/spaces/gparmar/img2img-turbo-sketch

论文One-Step Image Translation with Text-to-Image Models

效果如何?我们上手试玩了一番,得出的结论是:可玩性非常强。其中输出的图像风格多样化,包括电影风、3D 模型、动画、数字艺术、摄影风、像素艺术、奇幻画派、霓虹朋克和漫画。

prompt 为「鸭子」。

prompt 为「一个草木环绕的小房子」。

prompt 为「打篮球的中国男生」。

prompt 为「肌肉男兔子」。

在这项工作中,研究者对条件扩散模型在图像合成应用中存在的问题进行了针对性改进。这类模型使用户可以根据空间条件和文本 prompt 生成图像,并对场景布局、用户草图和人体姿势进行精确控制。

但是问题在于,扩散模型的迭代导致推理速度变慢,限制了实时应用,比如交互式 Sketch2Photo。此外模型训练通常需要大规模成对数据集,给很多应用带来了巨大成本,对其他一些应用也不可行。

为了解决条件扩散模型存在的问题,研究者引入了一种利用对抗学习目标来使单步扩散模型适应新任务和新领域的通用方法。具体来讲,他们将 vanilla 潜在扩散模型的各个模块整合到拥有小的可训练权重的单个端到端生成器网络,从而增强模型保留输入图像结构的能力,同时减少过拟合。

研究者推出了 CycleGAN-Turbo 模型,在未成对设置下,该模型可以在各种场景转换任务中优于现有基于 GAN 和扩散的方法, 比如昼夜转换、添加或移除雾雪雨等天气效果。

同时,为了验证自身架构的通用性,研究者对成对设置进行实验。结果显示,他们的模型 pix2pix-Turbo 实现了与 Edge2Image、Sketch2Photo 不相上下的视觉效果,并将推理步骤缩减到了 1 步。

总之,这项工作表明了,一步式预训练文本到图像模型可以作为很多下游图像生成任务的强大、通用主干。

方法介绍

该研究提出了一种通用方法,即通过对抗学习将单步扩散模型(例如 SD-Turbo)适配到新的任务和领域。这样做既能利用预训练扩散模型的内部知识,同时还能实现高效的推理(例如,对于 512x512 图像,在 A6000 上为 0.29 秒,在 A100 上为 0.11 秒)。

此外,单步条件模型 CycleGAN-Turbo 和 pix2pix-Turbo 可以执行各种图像到图像的转换任务,适用于成对和非成对设置。CycleGAN-Turbo 超越了现有的基于 GAN 的方法和基于扩散的方法,而 pix2pix-Turbo 与最近的研究(如 ControlNet 用于 Sketch2Photo 和 Edge2Image)不相上下,但具有单步推理的优势。

添加条件输入

为了将文本到图像模型转换为图像转换模型,首先要做的是找到一种有效的方法将输入图像 x 合并到模型中。

将条件输入合并到 Diffusion 模型中的一种常用策略是引入额外的适配器分支(adapter branch),如图 3 所示。

具体来说,该研究初始化第二个编码器,并标记为条件编码器(Condition Encoder)。控制编码器(Control Encoder)接受输入图像 x,并通过残差连接将多个分辨率的特征映射输出到预训练的 Stable Diffusion 模型。该方法在控制扩散模型方面取得了显著成果。

如图 3 所示,该研究在单步模型中使用两个编码器(U-Net 编码器和条件编码器)来处理噪声图像和输入图像遇到的挑战。与多步扩散模型不同,单步模型中的噪声图直接控制生成图像的布局和姿态,这往往与输入图像的结构相矛盾。因此,解码器接收到两组代表不同结构的残差特征,这使得训练过程更加具有挑战性。

直接条件输入。图 3 还说明了预训练模型生成的图像结构受到噪声图 z 的显着影响。基于这一见解,该研究建议将条件输入直接馈送到网络。为了让主干模型适应新的条件,该研究向 U-Net 的各个层添加了几个 LoRA 权重(见图 2)。

保留输入细节

潜在扩散模型 (LDMs) 的图像编码器通过将输入图像的空间分辨率压缩 8 倍同时将通道数从 3 增加到 4 来加速扩散模型的训练和推理过程。这种设计虽然能加快训练和推理速度,但对于需要保留输入图像细节的图像转换任务来说,可能并不理想。图 4 展示了这一问题,我们拿一个白天驾驶的输入图像(左)并将其转换为对应的夜间驾驶图像,采用的架构不使用跳跃连接(中)。可以观察到,如文本、街道标志和远处的汽车等细粒度的细节没有被保留下来。相比之下,采用了包含跳跃连接的架构(右)所得到的转换图像在保留这些复杂细节方面做得更好。

为了捕捉输入图像的细粒度视觉细节,该研究在编码器和解码器网络之间添加了跳跃连接(见图 2)。具体来说,该研究在编码器内的每个下采样块之后提取四个中间激活,并通过一个 1×1 的零卷积层处理它们,然后将它们输入到解码器中对应的上采样块。这种方法确保了在图像转换过程中复杂细节的保留。

实验

该研究将 CycleGAN-Turbo 与之前的基于 GAN 的非成对图像转换方法进行了比较。从定性分析来看,如图 5 和图 6 显示,无论是基于 GAN 的方法还是基于扩散的方法,都难以在输出图像真实感和保持结构之间达到平衡。

该研究还将 CycleGAN-Turbo 与 CycleGAN 和 CUT 进行了比较。表 1 和表 2 展示了在八个无成对转换任务上的定量比较结果。

CycleGAN 和 CUT 在较简单的、以对象为中心的数据集上,如马→斑马(图 13),展现出有效的性能,实现了低 FID 和 DINO-Structure 分数。本文方法在 FID 和 DINO-Structure 距离指标上略微优于这些方法。

如表 1 和图 14 所示,在以对象为中心的数据集(如马→斑马)上,这些方法可以生成逼真的斑马,但在精确匹配对象姿势上存在困难。

在驾驶数据集上,这些方法的表现明显更差,原因有三:(1)模型难以生成包含多个对象的复杂场景,(2)这些方法(除了 Instruct-pix2pix)需要先将图像反转为噪声图,引入潜在的人为误差,(3)预训练模型无法合成类似于驾驶数据集捕获的街景图像。表 2 和图 16 显示,在所有四个驾驶转换任务上,这些方法输出的图像质量较差,并且不遵循输入图像的结构。


在这篇论文中,研究人员成功地开发出了一种名为 One-Step Image Translation with Text-to-Image Models 的新方法,它可以自动生成图像,并根据给定的目标和背景快速调整生成图像的。这项工作展示了该方法在许多下游图像生成任务中的强大通用性。
研究人员使用了一个通用的方法,称为“对抗学习”,来使单步扩散模型(例如 SD-Turbo)适应新任务和领域。这意味着该方法利用预训练扩散模型的内部知识,并能够实现实时应用,如交互式 Sketch2Photo。此外,研究人员还引入了一个对抗损失函数,可以有效地克服过拟合的问题。
实验结果也证明了这一点,该方法在大多数情况下都可以提供与当前最先进的 GAN 和扩散方法相当的视觉效果。然而,他们发现,即使是在所有四个驾驶转换任务上,这些方法也无法生成与输入图像完全匹配的街景图像。
总的来说,这篇论文揭示了一种全新的生成图像的技术,可以应用于各种复杂的图像生成任务。然而,它仍需要进一步的研究和优化,以便更好地满足不同的需求。

上一篇:财经三人谈:AI“复活”逝者,哪些边界不应逾越
下一篇:京东宠物直播间背后,离不开采销“操盘手” 
更多更酷的内容分享
猜你感兴趣
英唐智控:光刻机正常运作 用于光电转换和图像处理的模拟IC和数字IC产品的研发生产

英唐智控:光刻机正常运作 用于光电转换和图像处理的模拟IC和数字IC产品的研发生产

英唐智控最近宣布五台光刻机正常运作,并表示可用于模拟IC和数字IC产品的研发生产,包括0.35μm工艺。

热点资讯 06.12
提升AI产品经理的决策力:为何数据分析能力至关重要

提升AI产品经理的决策力:为何数据分析能力至关重要

习别人的实践经验,通过阅读专业书籍和论文提高自己对数据处理和分析的理解。 1. 理论学习:AI产品经理需要了解数据的收集和处理的基础理论和方法,包括数据的特性、处理流程、异常检测等。 2. 实践操作:通过实际参与AI项目,AI产品经理可以真实体验到数据分析的实际运用,进一步加深对其技术的理解和应用能力的提升。 3. 模型评估:深度学习和机器学习等领域是AI产品经理数据分析的重要方向,因此,提升数据分析能力的同时也需要重视模型评估的技巧和方法。 4. 预测性分析:通过对历史数据的分析,AI产品经理可以预测未来的趋势和行为,这对于业务决策和项目规划非常有帮助。 5. 数据可视化:数据分析不仅仅是理论知识的应用,还需要有良好的数据可视化能力,可以通过图表和图形等方式清晰地展示数据分析的结果,使得决策更加直观和准确。

热点资讯 10.09
2024年打春时间解析:精确到秒的最新数据,以及它在2024年的方位定位

2024年打春时间解析:精确到秒的最新数据,以及它在2024年的方位定位

2024年打春时间为2月4日16点26分53秒,注意其中的“开始时间”和“结束时间”。

生活常识 04.15
2024年打春时间解析:精确到秒的最新数据,以及它在2024年的方位定位

2024年打春时间解析:精确到秒的最新数据,以及它在2024年的方位定位

2024年打春时间为2月4日16点26分53秒,注意其中的“开始时间”和“结束时间”。

生活常识 04.15
国区WSA复苏,腾讯应用宝登录微软App Store:重新点燃手机游戏热情

国区WSA复苏,腾讯应用宝登录微软App Store:重新点燃手机游戏热情

标题:微软中国宣布推出腾讯应用宝专区预览体验版 事件起因:微软中国宣布将在 Windows 11 预览体验计划上,通过微软应用商店推出腾讯应用宝专区预览体验版。 事件关注爆点:参与 Windows 11 预览体验计划的用户现可以在微软商店侧边导航栏中找到腾讯应用宝专区,即可选择应用下载;此外,使用该功能的前提是需要将商店的地区设置为中国。

热点资讯 11.14
AMD官方宣布大规模裁员,涉及近1000名员工

AMD官方宣布大规模裁员,涉及近1000名员工

AMD裁员或接近1000人,涉及消费电脑、游戏电脑和数据中心等领域,份额为80%以上。该公司正追赶英伟达在AI芯片市场的领先地位,预计全年销售额达到50亿美元。分析师预计英伟达2024年收入可达1259亿美元。然而,AMD可能需要等待更长的时间来考虑裁员,因为该公司最近一个季度的表现并不像华尔街人士预期的那样好。

热点资讯 11.14
OpenAI再次呼吁:美国政府需要投入更多资金,否则AI竞争可能输掉中国!

OpenAI再次呼吁:美国政府需要投入更多资金,否则AI竞争可能输掉中国!

OpenAI提议投入巨资支持AI行业,称将推动美国的经济增长。同时,呼吁美国政府加大对AI公司的监管力度和投资,尤其是在能源领域,通过补贴小型核反应堆以降低能耗。提案还建议设立新的就业计划,为数据中心培养人才。

热点资讯 11.14
努比亚Z70 Ultra:拒绝‘苹果’的普通,屏力让你惊喜不已!

努比亚Z70 Ultra:拒绝‘苹果’的普通,屏力让你惊喜不已!

努比亚将于11月21日14:00发布新款Z70 Ultra,该款手机采用了业内独家的6.85英寸1.5K真全面无孔屏和2000 nit峰值亮度真全面屏。具有极窄的1.25mm黑边和高达95.3%的超高屏占比,备受期待。

热点资讯 11.14
江宏斌狱中深情款款,向中产传递爱意,与柴进再续前缘:《好团圆》大结局

江宏斌狱中深情款款,向中产传递爱意,与柴进再续前缘:《好团圆》大结局

向中,他的选择并没有错。虽然他在处理江宏斌的问题上表现出了智谋和勇气,但他最终选择了愿意接受江宏斌母亲徐素敏作为自己的妻子。这不仅是对他个人品格的认可,也是对他家庭责任感的肯定。 另外,老三向南的婚姻也受到了外界的关注。由于前夫江宏斌的犯罪行为,她失去了财富和地位,但同时也找到了生活的方向。她专注于艺术品制作,希望能够通过这种方式为社会做出贡献。 总的来说,《好团圆》的故事充满了转折和惊喜,无论是在大结局还是在人物关系的发展中,都有着许多值得思考的地方。这些剧情不仅丰富了电视剧的内容,也为观众带来了不同的感受和启示。

热点资讯 11.14
泳装博主 Lisa 重返辣舞舞台:全新马甲线、A4腰、漫画腿,时尚芭比震撼登场!

3年未见的女神 Lisa 马甲线惊艳归来,A4腰燃炸新舞步,完美展现超模风采!

性感博主 Lisa 继续挑战自我,3年跳蟹舞惊艳亮相,满目惊羡的 A4 腰与漫画腿,再现诱人身材!

泳装博主 Lisa 重返辣舞舞台:全新马甲线、A4腰、漫画腿,时尚芭比震撼登场! 3年未见的女神 Lisa 马甲线惊艳归来,A4腰燃炸新舞步,完美展现超模风采! 性感博主 Lisa 继续挑战自我,3年跳蟹舞惊艳亮相,满目惊羡的 A4 腰与漫画腿,再现诱人身材!

新加坡粉丝见面会,LISA身穿迷你短裙,再跳螃蟹舞,可爱又性感;此为她首次单独见面会,当天有多重精彩环节,包括舞蹈表演、互动环节和特别惊喜环节;此次见面会还设有最佳服装奖,粉丝可秀创意穿搭并与LISA互动;此外,LISA透露首张solo专辑即将推出,有望在美国电视喜剧《白莲花大饭店》中亮相;之后还在个人ins上晒美照并感慨:“一站在新加坡。”

热点资讯 11.14
外网播放量破千万!李子柒再次挑战韩国版《三里屯》的霸主地位

外网播放量破千万!李子柒再次挑战韩国版《三里屯》的霸主地位

李子柒回归视频海外播放破亿,刷新中国文化传播纪录,其在螺钿漆器制作方面的创新备受瞩目,让韩国等国家纷纷警惕文化偷窃。

热点资讯 11.14
黄晓明生日无祝福,网友调侃:是否搞丢踩点送祝福的杨颖了?

黄晓明生日无祝福,网友调侃:是否搞丢踩点送祝福的杨颖了?

黄晓明生日时,许多圈内好友未能及时送上祝福。然而,在他47岁生日当天,包括备受争议的女友杨颖在内,却没有收到任何祝福。这引发了外界对黄晓明与叶珂关系的猜测。其中,网友认为黄晓明疑似失去了为他送生日祝福的机会,而叶珂则宣布自己将退网,避免在网络上引起不必要的纷争。不少网友猜测,叶珂的这一行为可能是为了规避与其他女友的关系。最后,黄晓明与叶珂的关系受到了更多网友的关注。

热点资讯 11.14
大S车祸事件:汪小菲要求撤回豪车拍卖?她的新挑战又将如何展开?

大S车祸事件:汪小菲要求撤回豪车拍卖?她的新挑战又将如何展开?

具俊晔定居台北后,大S打算拍卖停了四年的豪车以换取抚养费用,但遭汪小菲拒绝。两人陷入了新的困境,分手的可能性增大。大S和具俊晔已结婚三年,仍有恩爱如初。目前,汪小菲携带小梅前往各地旅游、扩张门店和共享幸福生活。未来离婚可能性较大,但具俊晔依旧对大S充满关爱。

热点资讯 11.14
高效查处,切实保障交通安全——请关注珠海驾车冲撞行人案情的最新进展

高效查处,切实保障交通安全——请关注珠海驾车冲撞行人案情的最新进展

珠海市香洲区体育中心发生驾车冲撞行人案件导致35人死亡、43人受伤,公安机关已经将嫌疑人依法严惩并开展调查。警方呼吁广大群众积极参与社区治理,发现潜在矛盾纠纷及时报告,共同维护社会稳定。

热点资讯 11.14