由于文生图已经比较成熟,所以下一个挑战将是让人工智能生成视频,Sora做到了,虽然还在起步阶段,虽然还有些生涩,但这是一个重要的里程碑事件。
Sora仍在测试中,但OpenAI展示的结果令人印象深刻——它们确实具有超现实的视频游戏般的质量。
好了,让我们来看看Sora是什么,它是如何工作的,以及它未来将如何使用。
Sora是什么?
Sora是由OpenAI开发的一款文本到视频的人工智能模型,OpenAI也是ChatGPT和DALL·E 3的开发者,OpenAI声称它“可以创造出逼真而富有想象力的场景”,我认为“逼真”可能有点夸张——毕竟生成的视频很短(60秒)、内容有限、情节简单、动态不足,同时它们也缺乏声音,至少目前如此——但它根据书面提示生成的视频确实看起来很棒。
除了使用文本提示外,Sora还可以拍摄图像并将其转换为视频,或者拍摄视频片段并将其向前或向后扩展。
Sora可以制作长达60秒的视频,其中包含多个角色、摄像机运动以及持续且精确的细节。 由于接受了训练(我将在下面深入讨论),所以可以说它对现实世界中的事物有深刻的理解。
Sora是如何工作的?
Sora是基于Open AI的DALL·E和GPT模型背后的理念,以及大量新颖的创新。
使用带有配文的各类视频片段进行训练
Sora接受了不确定数量的视频片段的训练,这些视频片段包括了从自拍视频到电影、电视节目、真实世界片段、电子游戏记录等各种内容。所有这些训练视频都配有字幕,大部分是人工智能配的字幕,这样Sora就可以对自然语言以及它与物理世界的关系有更深的理解。这一点很重要,视频素材的字幕、配文或解说对Sora理解视频至关重要。
使用patches对视觉数据进行标记
在技术报告中,OpenAI研究人员解释说,他们受到了像GPT这样的大型语言模型(LLM)的启发,这些模型通过在大量数据上进行训练,能够在各种各样的任务中变得非常有能力。
这很大程度上是因为LLMs模型的个体“标记”之间的关系-有意义的文本片段大约四个字符长-跨越不同的领域,包括多种语言,数学和计算机代码。 在数十亿个网页中,他们有一个结构,可以用来分类和合并它。
为了在视频中实现同样的效果,OpenAI使用了“时空补丁”。本质上,视频中的每一帧都被分解成一系列被称为补丁的更小的片段。每个片段在视频长度中的变化也被编码在时空补丁中——因此得名,时空。至关重要的是,这使得Sora可以在各种不同的视觉数据上进行训练,从垂直社交媒体视频到宽屏电影,因为每个片段都不需要被剪辑或压缩到特定的维度集。
它很快变得非常复杂,所以如果你想了解更多,请查看技术报告或 Towards Data Science 的这篇文章,或者继续阅读以了解更多细节。
用转换扩散网络(transformer diffusion network)生成patches
为了生成视频,Sora使用与DALL·E相同的扩散方法,具有类似于GPT的Transformer架构,使其能够生成长、详细的多合成片段。
扩散开始于一个随机的噪声场,人工智能反复编辑它,使它越来越接近目标提示。这听起来很疯狂,但它与现代图像模型配合得非常好。这就是稳定扩散、Midjourney、DALL·E 3和所有其他AI艺术生成器能够创造如此有趣的结果的原因。
Sora最大的发展是它并不是逐帧生成视频。相反,它使用扩散来一次性生成整个视频。该模型对未来帧具有“预见性”,这使它能够在整个剪辑中保持生成的细节一致,即使它们在帧内和帧外移动,被其他物体遮挡,或者虚拟相机在3D空间中移动。
看看OpenAI的几个示例视频,你会看到所有这些都在行动,这些剪辑通常看起来有一致的细节,没有太多奇怪的人工制品。
Sora能做什么?
最基本的,Sora可以用来根据文本生成视频。这在现实世界中有多大用处还有待观察。人工智能生成的图像还没有取代摄影师和其他艺术家,但它们无疑正在被广泛使用——尤其是在网上。
但如果OpenAI的宣传是可信的,Sora可以做得更多:
- 它可以将静态图像和图纸转换为视频; 它可以为现有的图像和视频添加特殊效果; 它可以将视频在时间上向前和向后延长; 它可以将任何视频剪辑转换为无缝循环; 它可以在两个不相关的视频片段之间插入衔接内容; 它可以编辑现有的视频,用其他东西替换背景、风格或视频里的内容。
至少其中一些功能有潜力让人们创建和生成新类型的视频,至少不用求助于视频编辑和Adobe After Effects等特效程序。
OpenAI所宣称的宏伟愿景是,Sora不仅对创建视频有用,可以模拟电子游戏等视频场景,因此,研究人员认为,“视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。”,这是创造逼真虚拟世界的一条希望之路。
当然,负面的应用肯定也会很多,包括深度造假等。虽然现有的视频编辑和人工智能工具已经使它们很容易被制作出来,但文本到视频的人工智能模型可能会让肆无忌惮的人更加毫不费力地大量制作出这些假视频。视频质量还不太令人信服,但这并不意味着它永远不会令人信服,将来肯定会达到以假乱真的程度。OpenAI们为了信誉,通常会设置强大的防护栏,使其模型难以被误用和滥用,但使用类似开源模型构建的其他服务却不能这样说。 我们肯定会看到未来几年的奇怪现象,而整个社会将与虚假视频变得更容易、更便宜达成一致。
Sora有多强大?
OpenAI的《Sora》演示版本看起来很棒,但也有一些重大的警告。
OpenAI表示,Sora很难准确模拟复杂场景中的物理现象,而且并不总能准确地找出因果关系。他们给出的例子是,有人可能会咬掉一块饼干,但饼干会保持完整。同样,在一段视频演示中,Sora也无法模拟玻璃杯摔碎的情况。该模型还可能混淆空间细节,比如左边和右边,而且可能无法遵循“随着时间推移发生的事件的精确描述,比如遵循特定的摄像机轨迹。”
然而,最大的疑问在于OpenAI的例子是如何精心挑选的。如果视频演示是Sora在给定提示下能做什么的合理准确的代表,那么当它向公众发布时将是令人着迷的。随着技术能力进一步发展和视频素材的大量训练,尤其是从使用它的人那里得到大量的训练,Sora很可能会迅速提高。
Sora什么时候可以上线?
Sora目前只对“红队成员”开放,这些人是专门研究人工智能模型的弱点和漏洞的,特别是研究如何让它们创造出各种可怕的东西。 OpenAI将使用他们的测试结果来训练Sora,使其更适合向公众发布。
虽然还没有明确的时间表,但您可以尝试其他一些文本到视频的AI模型。Runway Gen-2是一个大名字,但谷歌的Lumiere和Meta的Make-a-Video都可以作为PyTorch的扩展来使用,如果您有技术能力来运行它们。
建议最近几个月内多关注Sora的主页和相关新闻,并查看她的大量示例,相信正式发布的那一天会如期而至。