去年至今,AIGC浪潮席卷全球,大模型赛道在不同领域激发出了更多可能。如果说ChatGPT和Stable Diffusion真正让AIGC走进了大众的视野,那么今年年初以来,Sora掀起的视频AIGC热潮,则是令主流互联网用户都感受到了AI技术有机会在更大范围改变世界。

一时间,视频生成大模型赛道涌入无数玩家。国内市场,字节跳动早在年初就发布了超高清文生视频模型MagicVideo-V2,阿里云旗下魔搭社区上线文本生成视频大模型......类似的文生视频大模型还有不少,但还没有哪个大模型实现了真正意义上的落地应用。哪怕是Sora,充其量也只是DEMO,也就是实验室产品,还不能真正投入消费市场。

正如百度CEO李彦宏所说:“大语言模型本身并不直接创造价值,基于大模型开发出来的AI原生应用才能满足真实的市场需求。”

谁能成为第一个让普通用户用上的文生视频大模型,我想市场已经给出了答案——快手可灵大模型。

发布即上线,

快手加入文生视频战局

近日,快手正式上线可灵视频生成大模型,从官方公开的信息来看,可灵大模型采用了类Sora的技术路线并结合多项自研创新技术,具备生成大幅度合理运动、模拟物理世界特性、支持自由输出视频宽高比等优势。

不仅如此,可灵大模型基于Diffusion Transformer架构打造的文本视频语义理解能力,能较好的理解用户给出的指令,同时支持输出长达2分钟,且高达1080p 30FPS的视频。

凭借以上优势,可灵大模型一经推出就迅速出圈,内测资格一号难求。所幸小雷受邀参与内测,不然可能还在排队等待审批通过。获取体验资格的具体流程如下,感兴趣的小伙伴可以试试。

申请流程:下载快影APP - AI玩法 - AI生视频模块 - 填问卷申请。

话不多说,接下来小雷就和大家一起看看“国产Sora”的实力。

视频生成效果超预期,

快手勇气可嘉

开始体验前,小雷选取了几个官方展示的热门视频,大家仔细观察这几个视频,应该就能对可灵大模型有大致的了解。

为了方便大家观看,小雷将视频转换成了动图,因此会对视频质量和帧数造成一定的影响。不过,细心的朋友可能已经发现了,小雷选择的这几个视频分别展示了物体动态、光影、环境方面的特性。

作为官方展示的热门作品,视频整体水平自然不低,无论是阳光下的阴影、水底反射的涟漪,还是火焰带来的照射,都能比较好的呈现。尽管每个视频或多或少存在物体表面突然跳动之类的小瑕疵,但整体瑕不掩瑜,也给接下来的自由发挥带来更多期待。

小雷尝试用文字描述“一个中年大叔坐在客厅吃面”生成日常场景,大约花了2分钟时间,一个5s的视频就成功出炉了。先说观点,整体效果合格,客厅背景识别准确,人物夹筷子和口腔动作还原得十分到位,当然少不了AI视频特有的“空间魔法”,筷子角度和吃面条均出现不同程度的断层,有些不协调。

随后小雷又生成了几个不同场景的视频,根据观察,只要不涉及人与人、或者人与物体之间的复杂交互,可灵大模型对于不同物体物理表现的诠释还是相当稳定的,基本没有出现大的差错。

比如雷科技拍摄数码评测视频时经常要提前录好产品展示镜头,以备空镜使用,但拍摄对场地布景有不小的要求,因此如果AIGC视频能帮助完成就再好不过了。为此,小雷让可灵大模型生成一个小米14在科幻摄影棚内的外观展示,背景以及外观展示的动作都没有问题,但视频中的手机显然不是小米14,甚至还附带了类似苹果的logo,唯一像的地方或许就是镜头模组了。

为了搞清楚原因,小雷测试了其他品牌手机,结果一致。不仅是手机,就连马斯克等特定人物也无法识别生成。小雷猜测应该是快手出于隐私保护合规以及避免侵权的考量,主动将潜在风险扼杀在摇篮之中,这点值得肯定。

正如前面说的,只要不涉及人与人、或者人与物体之间的复杂交互,AIGC视频的表现都很不错。众所周知,如何让生成视频符合物理规律一直是视频AIGC大模型最头疼的问题,与生成图片相比,生成视频需要考虑的问题更复杂,不仅涉及到不同主体的运动轨迹,肢体协调,还得结合重力、光影等真实物理世界特性进行综合处理。

我们常见的视频、电视剧、电影,里面包含有很多交互动作,而这些,正是物理难度最高的部分。目前市面上所有AIGC视频大模型处理复杂交互都非常一般,可灵大模型也不例外,至少在小雷测试中就发现了许多可优化空间。

比如这个拳击场景,两个人的手部、脸部、躯体均出现不同程度的扭曲,随着动作频率的加快,动作出现变形的概率更高。这也是所有AIGC视频的通病,如果大家有留意其他大模型生成的AIGC视频,你会发现很少出现这种大幅度交互的镜头,因为这会直接暴露弱点。

别的不说,至少可灵大模型勇气可嘉,也让我们看到了AIGC视频新的可能性。随着更多数据的集成和技术迭代,未来直接生成一部武打短视频也不是不可能的事情。

总的来说,可灵在自然语义识别方面与文本大模型相比还是存在一定差距,小雷测试过程中偶尔会出现关键词识别不到的情况。而在视频质量上,作为面向普通用户的免费大模型应用,小雷认为没有太多可挑剔的地方,前面提到的瑕疵是整个行业都暂时无法解决的。

可灵在真实风格场景上的表现令人印象深刻,许多AIGC视频如果不细看,甚至无法发现是AI生成。同时可灵大模型的生成效率表现也不错,单个视频的生成时间基本维持在2-3分钟以内,测试过程中没有遇到卡顿、异常等情况,侧面体现了可灵大模型的强大算力和稳定性。

当然,内测版本的可灵大模型还有许多限制,比如视频生成视频为固定的5s,图文视频功能暂未开放,不能自定义清晰度和尺寸等。但参考官方给出的完全体信息,可灵大模型未来的大规模落地应用绝对是值得期待的。

加速落地的多模态,

是大模型大战的制高点

模型设计、数据保障、计算效率、模型能力的扩展是一个视频生成大模型必备的核心要素。Sora、可灵暂时只能说具备成为优秀视频生成大模型的潜力,它们均存在不够成熟的地方,比如模拟复杂场景的物理原理、无法理解因果关系以及跳跃的空间细节等。

造成这些问题的其中一个原因是目前视频生成大模型基本是直接从视频数据中学习物理知识,但真实视频往往包含很多信息,因此大模型很难精准区分每个物理规律并学习。据了解,快手大模型团队自研了3D VAE网络和全注意力机制(3D Attention),借助多模态技术更好地实现时空建模。

多模态学习(Multimodal learning)是机器学习的一个重要分支,其中的模态指的是数据形式,例如文字、图片、语音等。通常意义的多模态学习,就是利用模型去同时处理图文,图生文本、文本生图等数据。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。

不同于成熟的语言模型,当前多模态大模型仍处于起步阶段,人们还在不断探索相关应用。就像国内借助新能源车实现汽车行业弯道超车那样,语言模型的落后不影响国内借助多模态大模型实现反超的可能性,多模型成为国内大模型赛道的新机会。

据中国互联网络信息中心预测,2032年生成式AI市场规模有望达到1.3万亿美元,复合年增长率约42%。生成式AI技术的巨大潜力预示着未来很长一段时间里,它将是各行业竞争的主战场。