就在国内还在卷传统大模型的时候,作为国内短视频鼻祖的快手,在六月六号一声不吭的发布了自己的视频大模型-可灵大模型(Kling)。它是由快手大模型团队自研打造的视频生成大模型,具备强大的视频生成能力 让用户可以轻松高效地完成艺术视频创作。

对于外界来说,快手布局AI,在动作上一直低调,相比字节跳动在AI上的布局,多赛道跑测产品,这次快手的可灵大模型确实让人眼前一亮。我们来看看可灵的文生视频表现如何。


大幅度的合理运动
可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。

长达2分钟的视频生成
得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2分钟的视频,且帧率达到30fps。


模拟物理世界特性
基于自研模型架构及Scaling Law激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频。


强大的概念组合能力
基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的场景。


电影级的画面生成
基于自研3D VAE,可灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。

支持自由的输出视频宽高比
可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需求。



基于自研的3D人脸和人体重建技术,结合背景稳定性和重定向模块,实现表情肢体全驱动技术,仅需一张全身照片,即可体验生动的“唱跳”玩法部分测试用户作品




可以看得出,快手可灵AI大模型对物理世界的理解和画面的构造中已经非常稳定,呈现出的画面来说也是非常不错的。目前由于算力、成本等因素,只有少部分用户拿到了体验资格,相信随着后续不断优化,普通用户也将体验到这媲美sora的文生视频大模型。

随着人工智能技术的飞速发展,特别是像文生视频大模型这样的高级AI模型的出现,它们对各行各业的影响是深远的。在这个AI的大浪潮下,我们需要在享受技术带来的便利和创新的同时,也要积极面对和解决由此产生的挑战。这包括制定相应的政策和法规,加强技术伦理教育,以及推动跨学科的合作,共同构建一个更加安全、公平、可持续的AI生态系统。