为了更好地拥抱AI时代,不少设计师或许需要接触AI应用软件,比如本文就开始学习并使用Stable Diffusion。这篇文章里,聊了聊自己的理解,一起来看一下。
AIGC已经是大势所驱,设计师要如何不被AI所替代,是我经常思考的问题,“觉得会被替代、对AI产生恐惧”,产生这种情绪只因我们不了解AIGC,因此我想我们应该大胆迎接,深入了解。基于此,我早已投入到学习的行列中了,这段时间以来,我学习stable diffusion以及comfyui的相关知识,并且想通过写文章的方式将这些知识总结复盘。
本文章优先介绍下stable diffusion,理解了stable diffusion原理,comfyui就比较简单了,两者原理是互通的。再加上现在市场很多AI生成图片的软件工具也是基于stable diffusion的逻辑去设计的,所以了解stable diffusion的运行原理,帮助我们掌握其他AI生成图片的软件工具。
一、Stable Diffusion的来源
Stable Diffusion(简称SD)是2022年发布的一个深度学习文本到图像生成模型,由慕尼黑大学的CompVis研究团体首先提出,并与初创公司Stability AI、Runway合作开发,同时得到了EleutherAI和LAION的支持。
二、Stable Diffusion的功能
它可以实现的功能有很多,可以根据文本的描述生成指定的图片(图生图),也可以用于已有图片的转绘(图生图),还可以用作图像的局部重绘、外补扩充、高清修复,甚至是视频的“动画化”生成。
三、Stable Diffusion的原理
Stable Diffusion使用的是Latent Diffusion Model(潜在扩散模型),它通过使用经过训练的编码器(VAE中的E)将全尺寸图像编码为较低维度的图像,然后再在潜空间内进行正向扩散过程和反向扩散过程。再经过训练的解码器 (VAE中的D),将图像从其潜在表示解码回像素空间。
该模型由下图所示的3个部分组成:pixel space(像素空间)、latent space (潜空间)、conditioning(条件)。
稳定扩散过程:
感知图像压缩(Perceptual Image Compression):图3中最左侧红框部分是一个VQ-VAE,用于将输入图像x编码为一个离散特征z。LDM:图3的中间绿色部分是在潜变量空间的扩散模型,其中上半部分是加噪过程,用于将特征Z加噪为ZT 。下半部分是去噪过程,去噪的核心结构是一个由交叉注意力(Cross Attention)组成的U-Net,用于将ZT还原为Z 。条件机制(Conditioning Mechanisms):上图的右侧是一个条件编码器,用于将图像,文本等前置条件编码成一个特征向量,并将其送入到扩散模型的去噪过程中。
四、Stable Diffusion(Latent Diffusion Model)的特点
与Diffusion Models和GAN模型相比,Stable Diffusion(Latent Diffusion Model模型)具备更快速、更稳定的特点。
更快速:与Diffusion Models相比,Latent Diffusion Model模型通过减少噪声的数量和步骤,从而减少模型的训练时间。更稳定:与GAN相比更稳定,GAN作为是早期的图像生成模型,通过生成器(Generato)与判别器(Discriminator)不断对抗进行训练。但生成的图片存在对输出结果的控制力较弱,容易产生随机图像、分辨率比较低的问题。
最后,这篇文章初步介绍了Stable Diffusion的原理和特点,下一篇文章我想聊一聊自己是如何使用Stable Diffusion这个工具以及后续的一些实战案例。敬请期待!
数据来源:
https://zhuanlan.zhihu.com/p/667057805
https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/https://techvify-software.com/what-is-stable-diffusion/
https://developer.baidu.com/article/details/3222941
本文由 @bwyw 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于CCO协议。