最强的视频生成模型—Sora,科技领域的圣杯,深入了解其发展历程
2023年是由语言模型(LLMs)和图像生成技术的激增主导的一年,而视频生成技术则相对受到了较少的关注。在这篇文章中,我目标是分享视频生成在近几年是如何演变的,模型的架构是如何发展的,以及我们现在面临哪些未解决的问题。24年,OpenAI发布了Sora——一个具有惊人能力的视频生成模型。将这个时间线视为一个旅程,观察视频生成模型的演变。这将帮助我们理解为什么模型会以今天这样的方式被设计,并为未来的研究和应用工作提供洞察。每个模型都配有统一的图形表示来展示其架构和流程。将其视为一个简化的图形总结,而不是一个深入的模型架构。那么,让我们从一个不那么早的时间点开始 — 2022年...J. Ho, T. Salimans, A. Gritsenko, W. Chan, M. Norouzi, D. J. Fleet, “Video Diffusion Models” (2022), arXiv:2204.03458.
为了理解这个领域发展动态,我建议从谷歌在利用扩散模型进行视频生成方面的开创性工作开始。它是创建T2V(文本到视频)扩散模型的首批尝试之一。这个模型代表了利用扩散模型从文本描述生成视频的初步尝试。VDM(一种视频生成模型)使用扩散模型技术根据文本描述生成视频。模型的核心是一个结构化的3D U-Net,它具有时间注意力机制,能够生成在多个帧之间保持一致性的图像。此外,该模型的设计没有采用潜在扩散或扩散模型的级联方式。级联模型通常是指将多个模型按顺序连接起来,每个模型负责处理前一个模型的输出,以此来提升最终结果的质量或解决更复杂的问题。这个模型可以同时在视频和图像上进行训练。这是通过在每个时间注意力块内去除注意力操作并固定此输入的注意力矩阵来完成的。这里提到的“时间注意力”是指模型能够在生成视频的不同帧时考虑到时间上的连续性和变化,确保视频内容的流畅和一致性。
考虑到发表论文的简洁风格,这项工作是一个概念证明演示,而非一个真实世界的例子。但现在轮到另一个公司了...U. Singer, A. Polyak, T. Hayes, X. Yin, J. An, S. Zhang, Q. Hu, H. Yang, O. Ashual, O. Gafni, D. Parikh, S. Gupta, Y. Taigman, “Make-a-Video: Text-to-Video Generation without Text-Video Data” (2022), arXiv:2209.14792.
Meta在T2V方面的开创性工作。最值得注意的是,它训练于开源的非配对视频数据集。与前一个模型相同,它通过整合时间层来扩展扩散文本到图像(T2I)模型,以实现文本到视频生成。但你可能在上面的架构中注意到的最大变化是一个级联(cascade)。作者使用了一个时空和空间超分辨率扩散模型的级联来提高分辨率和帧率。引用文章说:级联的不同组件是独立训练的。最初,解码器、先验和两个超分辨率模块仅使用图像进行训练,没有任何文本。基础T2I模型是唯一接收文本输入的部分,并且与文本-图像对一起训练,而不需要在视频上进一步训练。
另一个大步骤是你在架构上注意到的2+1D。该模型利用“伪3D”卷积方法来更有效地集成时间信息。简而言之,伪3D方法旨在用更计算效率的策略模拟全3D卷积和注意力机制(直接在视频上作为3D数据操作)的效果。它首先在每个帧上分别应用标准2D卷积,然后沿时间轴应用1D卷积以在帧之间共享信息。一个精选的开源数据集混合:文本为英语的2.3B子集LAION-5B + 10M子集HD-VILA-100M + WebVid-10M引入的级联和伪3D方法不仅限于这个模型,但所有这些结合开源数据集的利用,使这成为了一个被许多新方法引用和比较的基础性论文。J. Ho, W. Chan, C. Saharia, J. Whang, R. Gao, A. Gritsenko, D. P. Kingma, B. Poole, M. Norouzi, D. J. Fleet, T. Salimans, “Imagen Video: High-definition Video Generation with Diffusion Models” (2022), arXiv:2210.02303.
如果你在看过前面的工作后想知道“如果我们有了一个级联,我们能不能做一个更大的级联?”那么这里就是你的答案。来见见Google以更大的级联做出的回应。里面有一大套7个模型:文本编码器、基础模型(视频U-Net)、3个空间超分辨率(SSR)和2个时间超分辨率(TSR)模型。所有7个模型可以并行训练。如同之前的Make-a-Video,SSR模型增加了所有输入帧的空间分辨率,而TSR模型通过填充输入帧之间的中间帧来增加时间分辨率。值得一提的是,级联中的所有模型都使用了+1时间维度。这意味着它们都适应了视频格式,所以超分辨率(SSR)可以考虑视频的时间方面,不会产生“闪烁伪影”。为了计算效率,只有基础模型使用了跨所有帧的时间注意力,而SSR和TSR使用时间卷积(计算上“更便宜”)。...从一个基础的16帧低分辨率视频开始,然后上采样生成最终的128帧视频,分辨率为1280×768,每秒24帧。
内部数据集 — 1400万视频文本对和6000万图像文本对 + LAION-400M虽然看起来最新的模型应该有一个巨大的级联——但实际上并没有。我们追求简单性,虽然级联的某些部分仍然存在(如SSR),但几乎所有这一领域的新工作都集中在创建一个“统治一切”的模型上,放弃了级联。S. Yin, C. Wu, H. Yang, J. Wang, X. Wang, M. Ni, Z. Yang, L. Li, S. Liu, F. Yang, J. Fu, G. Ming, L. Wang, Z. Liu, H. Li, N. Duan, “NUWA-XL: Unified Generative Pre-training for Visual Synthesis” (2023), arXiv:2303.12346.
一个有些被遗忘,但非常有趣的工作,展示了“扩散上的扩散”用于生成极长片段,同时保持相对良好的时间一致性。这个模型使用递归(recursion)而不是级联来插值帧。这里的核心概念是“扩散上的扩散”——一个层次化的、由粗到细的视频生成方法,从一个全局模型开始以建立关键帧,通过局部扩散模型逐步填充细节。这使得视频片段的并行生成成为可能。作者从7.55分钟减少到26秒来生成1024帧(但未公开GPU配置)。这里的关键模块是遮罩时间扩散(MTD)。“遮罩”一词意味着它处理全局生成过程(缺少初始/结束视频帧参考)和局部细化过程(使用现有帧作为指导)。作者应用了他们命名的T-KLVAE潜在编码器。详细来说,引用文章:T-KLVAE利用预训练的图像KLVAE(潜在编码器)加上时间卷积和注意力层,保留空间信息同时融合时间动态。
简而言之——T-KLVAE将视频编码成一个紧凑的维度表示,减少了计算复杂性。作者认为,其它值得注意的特点之一是,这是第一个直接在长片(最多3376帧)上训练的模型。FlintstonesHD——大约600万帧的166集卡通片段,高清质量。这项工作以一种独特的方式出现,展示了一次运行生成的整集卡通片段,但几乎在其发表一年后,现代T2V模型仍然在生成一致性长视频方面存在困难。这在一定程度上可以由资源缺乏或是追求图像质量超过长度的竞赛来解释。A. Blattmann, R. Rombach, H. Ling, T. Dockhorn, S. W. Kim, S. Fidler, K. Kreis, “Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models” (2023), arXiv:2304.08818.
现在是SD(StableDiffusion)的时代了。虽然我们在NUWA-XL中看到了一个关于潜在空间的技巧,这项工作采取了所有人都喜欢的StableDiffusion,并将其转换成一个T2V模型。LDMs(潜在扩散模型)是图像生成的首选架构,现在是它们在视频生成中大放异彩的时候了。视频LDM将传统LDMs的潜在空间扩展了一个时间维度。流程简单明了:(i) 仅在图像上预训练LDM(StableDiffusion)(ii) 引入时间维度到潜在空间并对视频数据集进行微调。(iii) 可选,微调图像上采样器,使视频超分辨率模型。LDM的使用甚至实现了更大的计算效率,为生成高分辨率视频(最高达1280 x 2048像素)开辟了道路。闭源。真实驾驶场景视频,包含683,060个8秒视频,分辨率为512 × 1024 + WebVid-10M。看到SD在T2V中的应用因多种原因而令人兴奋。作者展示了DreamBooth可以被集成来“插入”特定对象或风格,保留原始外观。此外,通过微调,这种方法可以应用于任何SD T2I,将其转换成T2V。但如果我们可以取任何SD T2I模型并将其转换成动画模型,无需任何微调呢?这就是我们接下来要探讨的工作…Y. Guo, C. Yang, A. Rao, Z. Liang, Y. Wang, Y. Qiao, M. Agrawala, D. Lin, B. Dai, “AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning” (2023), arXiv:2307.04725.
这是视频预训练LDMs最有趣的应用之一。其思想简单——模型从视频中学习情感先验,以动画化堆叠图像。这些运动先验可以加在任何StabelDiffusion模型上,因此你可以插入个性化的SD模型而无需重新训练。AnimateDiff的核心是运动建模模块,一个在视频数据集上训练的时空变换器。该框架通过一个称为膨胀的过程,将此模块集成到冻结的T2I模型(如Stable Diffusion)中,使原始模型能够处理5D视频张量(批次×通道×帧×高度×宽度)。深入细节并引用论文:时间变换器”由沿时间轴的几个自注意力块组成,使用正弦位置编码来编码动画中每帧的位置。5D视频张量:通过将每个2D卷积和注意力层转换为仅空间的伪3D层来实现。5D视频张量的形状为批次×通道×帧×高度×宽度作为输入。
运动先验的膨胀允许我们在推理时用相同架构的自定义模型替换冻结的T2I组件。这消除了将T2I转换成T2V的预训练步骤。运动先验(时间变换器)是在WebVid-10M上训练的。这确实是一项了不起的工作,维护了高度更新的代码库,例如,支持SD-XL或域适配器LoRA。考虑到大量的个性化T2I SD模型,这是一个巨大的创造力领域。D. J. Zhang, J. Z. Wu, J.-W. Liu, R. Zhao, L. Ran, Y. Gu, D. Gao, M. Z. Shou, “Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation” (2023), arXiv:2309.15818.
来见见Show-1 —— 一个同时利用基于像素和基于潜在的扩散模型的混合模型。它有一个由3个基于像素的扩散模型(DeepFloyd作为关键帧的基础T2I模型,一个时间和一个分辨率插值)和1个LDM作为超分辨率模型的级联结构。引用论文:模型开始于基于像素的视频扩散模型(VDMs)来创建与文本提示紧密对齐的低分辨率视频。之后,它使用基于潜在的VDMs将低分辨率输出提升到高分辨率视频。
作者认为,基于像素的模型擅长处理运动,而基于潜在的模型是超分辨率的好专家。他们通过展示与VideoLDM或Make-a-Video相比的优越性能指标来支持他们的论点。这篇论文提出了一个非常有趣的问题:潜在表示对视频好吗?最终,你会看到一个意想不到的答案。A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, Y. Levi, Z. English, V. Voleti, A. Letts, V. Jampani, R. Rombach, “Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets” (2023), arXiv:2311.15127.
截至撰写本文时,最值得注意的开源T2V模型。尽管与视频LDM有很多相似之处,但这篇论文最大的价值在于数据策划。作者详细描述了他们是如何策划大型视频数据集的。不要把这看作是一个新模型,而是对如何创建和策划所有这些闭源数据集的问题的回答。(i) 模型开始于在图像-文本对上训练SD 2.1。(ii) 插入时间卷积和注意力层以适应视频生成,在大量视频数据上训练。这篇论文的主要焦点是数据处理,以创建精心策划的视频-文本对。它从剪辑检测流程开始,以防止突然的剪切和淡入淡出影响合成视频。每个视频剪辑使用三种合成字幕方法进行标注:CoCa(图像字幕器):标注每个剪辑的中间帧。V-BLIP:提供基于视频的字幕。基于LLM的总结:结合前两个字幕创建剪辑的简洁描述。最后,他们通过测量平均光流并使用OCR来移除包含过多文本的剪辑,以此过滤静态场景。
闭源大型视频数据集。但至少他们展示了如何创建这样的数据集。【VideoCrafter-v2—2023年12月】H. Chen, Y. Zhang, X. Cun, M. Xia, X. Wang, C. Weng, Y. Shan, “VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models” (2024), arXiv:2401.09047.
又一个基于Stable Diffusion的T2V。这里的主要兴趣在于详细的训练程序和作者如何克服仅使用可用的低质量视频与高质量生成图像的限制的描述。使用与VideoCrafterV1和其他T2V LDMs类似的架构,结合了从SD 2.1初始化的空间模块,以及初始化为零的时间模块。非常直接的结构,没有帧插值或上采样;因此以及硬件能力,模型可以生成最长2秒的视频。最初,获得一个完全训练的视频模型。然后,仅对这个模型的空间模块进行微调,使用高质量生成的图像。最终,你有了一个与之前的SDV相比质量明显的T2V模型,但没有使用私有数据集。特别感谢详细的实验设置和对视频上微调T2I的不同方法的描述。主视频训练在WebVid-10M和LAION-COCO上。对于空间模块的微调,作者利用了Journeydb [Junting Pan等] 高质量生成图像的数据集。继续。厌倦了扩散模型?可以理解。幸运的是,人类的创造力从未停止,引领我们创新,也就是说——D. Kondratyuk, L. Yu, X. Gu, J. Lezama, J. Huang, R. Hornung, H. Adam, H. Akbari, Y. Alon, V. Birodkar, Y. Cheng, M.-C. Chiu, J. Dillon, I. Essa, A. Gupta, M. Hahn, A. Hauth, D. Hendon, A. Martinez, D. Minnen, D. Ross, G. Schindler, M. Sirotenko, K. Sohn, K. Somandepalli, H. Wang, J. Yan, M.-H. Yang, X. Yang, B. Seybold, L. Jiang, “VideoPoet: Autoregressive Video Generation” (2023), arXiv:2312.14125.
所有论文中最独特的一篇。与依赖扩散的传统方法不同,VideoPoet利用自回归LLM生成视频甚至声音。所有论文中最独特的一篇。与依赖扩散的传统方法不同,VideoPoet利用自回归LLM生成视频甚至声音。这个特定模型的内部部分令人兴奋,但对于那些与多模态LLM工作过的人来说可能相当熟悉。这里的作者利用了仅解码器的LLM架构,能够将图像、视频和音频模态作为离散令牌接纳。为了创建这样的令牌,使用MAGVIT-v2进行图像和视频联合令牌化,以及SoundStream令牌器用于音频,将第一帧和后续的4帧块编码成令牌表示。由于处理不同模态输入的能力,作者表示这使得模型能够执行广泛的视频生成任务,具有零次学习能力:文本到视频、图像到视频、视频风格化和视频到音频任务。此外,它可以生成长视频,引用文章:模型可以通过对视频的最后一秒进行条件化来预测下一秒,从而生成任意期望时长的视频,并且强烈保持对象身份。
类似于Show-1,这个模型提出了另一个问题——我们真的可以应用LLM吗?我们真的应该使用扩散吗?虽然这个讨论仍然开放,但我们可能可以回答前一个问题。O. Bar-Tal, H. Chefer, O. Tov, C. Herrmann, R. Paiss, S. Zada, A. Ephrat, J. Hur, G. Liu, A. Raj, Y. Li, M. Rubinstein, T. Michaeli, O. Wang, D. Sun, T. Dekel, I. Mosseri, “Lumiere: Enhancing Video Generation with Pixel-based Diffusion Models” (2024), arXiv:2401.12945.
还记得“潜在表示对视频好吗?”这个问题吗?在最新的工作中,谷歌认为基于像素的扩散是前进的方式,如果你有资源。T2V基于像素的扩散模型的最新发展。最新的技术论文(你好,Sora)。有趣的是,虽然最近的大多数工作都集中在潜在扩散上,但这项工作在某种意义上重新思考了级联模型。总的来说,模型由一个基础模型(STUnet)组成,该模型一次性生成所有帧,并有一个具有时间感知的空间超分辨率(SSR)模型。没有帧插值。第一个也是主要的新颖性——时空U-Net(STUnet)。引用论文:该架构扩展了一个Imagen T2I模型,现在同时在空间和时间上对输入信号进行降采样。这包括在文本到图像架构中交错时间块,并插入时间降采样和上采样模块
另一个独特的特征是它如何重新思考级联模型。模型在重叠窗口中结合了一个超分辨率模型和MultiDiffusion来混合重叠部分以提升分辨率到1024x1024。所有这些使得模型在一系列任务上展示了SOTA的质量,包括图像到视频、视频修复和风格化生成。作者认为,时空U-Net和MultiDiffusion的想法可以应用于LDMs。让我们看看这将如何在未来工作。未公开的3000万带文本标题的视频,每个视频80帧长,16fps阅读到这里感觉有一个未解决的问题?嗯,不止你一个...在OpenAI发布Sora后质疑?不幸的是,技术论文看起来像是博客文章,并没有公开详细的架构。我们可以推测某种LLM与在大量数据上训练的扩散模型的融合。扩散是最好的吗?我们看到当前的视频模型都是基于扩散的。基本思想是产生帧,然后创建帧之间的时间连贯动画。但我们也看到LLM生成令牌,然后解码成图像甚至声音。我们今年会看到新的突破性架构吗?这里只有少数作品针对长视频生成。主要是因为扩散模型缺乏对“变换视角”的理解——当摄像机从一个视角跳到另一个视角。这就是为什么大多数模型通过过滤这种变化来训练,以移除“闪烁”——当模型在未过滤数据上训练时,视频中间出现的图像外观变化。现在的主要关注点是从哪里获取高质量数据。这主要关于标注数据,因为收集视频并对其进行标注需要花费金钱,超过大多数实验室能够承担的。然而,我们已经看到一些模型如何使用生成的图像数据集来克服这个问题。我们今年会看到一个新的“圣杯”视频数据集吗?