国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！

前言

4月27日，在2024中关村论坛-未来人工智能先锋论坛上，清华大学联合生数科技正式发布「Vidu」，展现了与Sora极为相似的视觉效果，其表现力在多镜头叙事、时间及空间连贯性以及对物理法则的遵循等各个层面上均表现出色。「Vidu」是自Sora发布之后全球率先取得重大突破的视频大模型。

介绍

Vidu模型采用原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080p的高清视频内容。U-ViT架构早在2022年9月就由团队提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。

在人物和场景时间一致性的保持上，Vidu的表现令人印象深刻。而且，它生成的视频最长可达16秒左右，在时长上破了纪录。一亮相，Vidu就得到了业内认可。

综合考虑时长、一致性、真实度、美观性等因素，它是「国产Sora」模型中当之无愧的佼佼者，是国内最能和Sora全面对标的视频模型。

接下来，让我们来一睹芳容：

一只小狗在游泳池里游泳，毛发纤毫毕现，狗脚划水的动作十分自然，和水的相互作用十分符合物理学原理。《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

人物眼睛的特写、做陶罐的女人手中正在转动的陶罐、一对坐着的男女同时抬头的动作，都刻画地细致入微，生动逼真。《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

技术亮点

模拟真实物理世界

森林里的湖边风光，无论是树、水面、云朵，还是整体的光影效果，很逼真写实。《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

汽车行驶在崎岖山路上的场景，也是非常经典的Sora演示。Vidu模拟了非常真实的光影效果，连扬起的灰尘，都十分符合物理规律。

《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

富有想象力

在这艘AI视频模型必考题中，Vidu生成的视频效果实在太惊艳！《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区这道题，考验了模型虚构场景的能力，为了生成超现实主义的画面，它们需要具有超强的想象力。

理解多镜头语言

可以看出，Vidu能够理解多镜头的语言，不再是简单的镜头推拉。这样，就能模拟我们的摄影过程。

生成的这个视频中，要求它包含海边小屋、镜头过渡到阳台、俯瞰大海、帆船、云朵等元素。

Vidu生成的视频，具有复杂的动态镜头，远、近、中景、特写，以及长镜头、追焦等效果，都十分惊艳。《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

一镜到底，16s时长

而在这个视频中，Vidu展现出了16s的超长「一镜到底」。

而且，视频完全是由单一大模型生成的，不需要任何插帧、剪切，直接就实现了端到端的生成。而在这个视频中，Vidu展现出了16s的超长「一镜到底」。

而且，视频完全是由单一大模型生成的，不需要任何插帧、剪切，直接就实现了端到端的生成。

《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

超强时空一致性

要求它以《戴珍珠耳环的少女》为灵感，生成一只蓝眼睛的橙色猫，可以看出，Vidu生成了连贯的视频。

从旋转的各个视角看，都非常逼真，甚至让人产生了「这是一个3D模型」的错觉。

它生成的视频中，人物和场景在时空中始终保持一致《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

理解中国元素

相比国外的AI视频模型，Vidu也更理解中国元素。熊猫、龙这样的中国元素，它都能理解和生成。

《国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！》- 投稿作者:AI小分队 - 发布于:GetAI社区

团队背景

最后，再聊下「Vidu」背后的团队——生数科技，这是一支清华背景的精英团队，专注于图像、3D、视频等多模态大模型领域。生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任；CEO唐家渝本硕就读于清华大学计算机系，是THUNLP组成员；CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员，长期关注扩散模型领域研究，U-ViT和UniDiffuser两项工作均是由他主导完成的。

团队从事生成式人工智能和贝叶斯机器学习的研究已有20余年，在深度生成模型产生的早期就开展了深入研究。在扩散模型方面，团队在国内率先开启了该方向的研究，成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

国产Sora！突破16秒长视频、多镜头、模拟世界的AI大模型Vidu震撼首发！

前言

介绍