扩散模型Diffusion Models (DM)自过去一段时间以来一直很受欢迎,因为生成图像的质量简直令人惊叹,击败了其他生成模型,例如 GAN、VAE、自回归模型等。但是使用 DM 的瓶颈,即产生样本的采样速度也就是推理时间是值得考虑的。Stability AI 公司处理相同的问题并产生更高质量的图像,提出了潜在扩散模型的想法,该想法在 2022 年 CVPR 会议上被接受,随后预训练的模型权重被公开用于建设性目的。在这篇博文中,我将从架构的角度更多地讨论 LDM,并会提到一些与 DM 的比较。
图像合成的应用范围从医学成像、机器人、传感、数字遗产到工业应用。在过去的十多年里,研究界从不同的角度关注这个问题,并提出了生动的架构或解决问题的风格来生成新颖的图像内容。最新趋势是生成以一些额外信息为条件的图像,例如图像说明、场景描述文本、语义图、参考图像或其他数据表示。
诸如生成对抗网络 (GAN)、变分自动编码器 (VAE)、自回归变换器 (ART)、基于流的方法和扩散模型 (DM)等技术已被广泛提出。每种方法都有其自身的优点和缺点。
- 像 ART 这样的基于似然的模型:包含数十亿个参数,因此计算成本非常高,并且具有顺序采样过程,因此非常耗时。将它们限制为仅用于低分辨率图像。 GAN:这种训练方法涉及对立,并且可以产生有限的可变性样本(模式崩溃),因为它在建模复杂和多模型分布时会受到影响。它还面临无法收敛(训练不稳定)的挑战。 VAE:它对潜在空间中的观察结果进行概率描述。由于在 VAE 中如何恢复数据分布和计算损失函数,它可能