国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!

前言

4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布「Vidu」,展现了与Sora极为相似的视觉效果,其表现力在多镜头叙事、时间及空间连贯性以及对物理法则的遵循等各个层面上均表现出色。「Vidu」是自Sora发布之后全球率先取得重大突破的视频大模型。

介绍

Vidu模型采用原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080p的高清视频内容。U-ViT架构早在2022年9月就由团队提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。

在人物和场景时间一致性的保持上,Vidu的表现令人印象深刻。而且,它生成的视频最长可达16秒左右,在时长上破了纪录。一亮相,Vidu就得到了业内认可。

综合考虑时长、一致性、真实度、美观性等因素,它是「国产Sora」模型中当之无愧的佼佼者,是国内最能和Sora全面对标的视频模型。

接下来,让我们来一睹芳容:

一只小狗在游泳池里游泳,毛发纤毫毕现,狗脚划水的动作十分自然,和水的相互作用十分符合物理学原理。《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

人物眼睛的特写、做陶罐的女人手中正在转动的陶罐、一对坐着的男女同时抬头的动作,都刻画地细致入微,生动逼真。《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

技术亮点

模拟真实物理世界

森林里的湖边风光,无论是树、水面、云朵,还是整体的光影效果,很逼真写实。《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

汽车行驶在崎岖山路上的场景,也是非常经典的Sora演示。Vidu模拟了非常真实的光影效果,连扬起的灰尘,都十分符合物理规律。

《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

富有想象力

在这艘AI视频模型必考题中,Vidu生成的视频效果实在太惊艳!《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区这道题,考验了模型虚构场景的能力,为了生成超现实主义的画面,它们需要具有超强的想象力。

理解多镜头语言

可以看出,Vidu能够理解多镜头的语言,不再是简单的镜头推拉。这样,就能模拟我们的摄影过程。

生成的这个视频中,要求它包含海边小屋、镜头过渡到阳台、俯瞰大海、帆船、云朵等元素。

Vidu生成的视频,具有复杂的动态镜头,远、近、中景、特写,以及长镜头、追焦等效果,都十分惊艳。《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

一镜到底,16s时长

而在这个视频中,Vidu展现出了16s的超长「一镜到底」。

而且,视频完全是由单一大模型生成的,不需要任何插帧、剪切,直接就实现了端到端的生成。而在这个视频中,Vidu展现出了16s的超长「一镜到底」。

而且,视频完全是由单一大模型生成的,不需要任何插帧、剪切,直接就实现了端到端的生成。

《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

超强时空一致性

要求它以《戴珍珠耳环的少女》为灵感,生成一只蓝眼睛的橙色猫,可以看出,Vidu生成了连贯的视频。

从旋转的各个视角看,都非常逼真,甚至让人产生了「这是一个3D模型」的错觉。

它生成的视频中,人物和场景在时空中始终保持一致《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

理解中国元素

相比国外的AI视频模型,Vidu也更理解中国元素。熊猫、龙这样的中国元素,它都能理解和生成。

《国产Sora!突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发!》- 投稿作者:AI小分队 - 发布于:GetAI社区

团队背景

最后,再聊下「Vidu」背后的团队——生数科技,这是一支清华背景的精英团队,专注于图像、3D、视频等多模态大模型领域。生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任;CEO唐家渝本硕就读于清华大学计算机系,是THUNLP组成员;CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT和UniDiffuser两项工作均是由他主导完成的。

团队从事生成式人工智能和贝叶斯机器学习的研究已有20余年,在深度生成模型产生的早期就开展了深入研究。在扩散模型方面,团队在国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

1

评论0

请先
显示验证码