前言
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布「Vidu」,展现了与Sora极为相似的视觉效果,其表现力在多镜头叙事、时间及空间连贯性以及对物理法则的遵循等各个层面上均表现出色。「Vidu」是自Sora发布之后全球率先取得重大突破的视频大模型。
介绍
Vidu模型采用原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080p的高清视频内容。U-ViT架构早在2022年9月就由团队提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。
在人物和场景时间一致性的保持上,Vidu的表现令人印象深刻。而且,它生成的视频最长可达16秒左右,在时长上破了纪录。一亮相,Vidu就得到了业内认可。
综合考虑时长、一致性、真实度、美观性等因素,它是「国产Sora」模型中当之无愧的佼佼者,是国内最能和Sora全面对标的视频模型。
接下来,让我们来一睹芳容:
一只小狗在游泳池里游泳,毛发纤毫毕现,狗脚划水的动作十分自然,和水的相互作用十分符合物理学原理。
人物眼睛的特写、做陶罐的女人手中正在转动的陶罐、一对坐着的男女同时抬头的动作,都刻画地细致入微,生动逼真。
技术亮点
模拟真实物理世界
森林里的湖边风光,无论是树、水面、云朵,还是整体的光影效果,很逼真写实。
汽车行驶在崎岖山路上的场景,也是非常经典的Sora演示。Vidu模拟了非常真实的光影效果,连扬起的灰尘,都十分符合物理规律。
富有想象力
在这艘AI视频模型必考题中,Vidu生成的视频效果实在太惊艳!这道题,考验了模型虚构场景的能力,为了生成超现实主义的画面,它们需要具有超强的想象力。
理解多镜头语言
可以看出,Vidu能够理解多镜头的语言,不再是简单的镜头推拉。这样,就能模拟我们的摄影过程。
生成的这个视频中,要求它包含海边小屋、镜头过渡到阳台、俯瞰大海、帆船、云朵等元素。
Vidu生成的视频,具有复杂的动态镜头,远、近、中景、特写,以及长镜头、追焦等效果,都十分惊艳。
一镜到底,16s时长
而在这个视频中,Vidu展现出了16s的超长「一镜到底」。
而且,视频完全是由单一大模型生成的,不需要任何插帧、剪切,直接就实现了端到端的生成。而在这个视频中,Vidu展现出了16s的超长「一镜到底」。
而且,视频完全是由单一大模型生成的,不需要任何插帧、剪切,直接就实现了端到端的生成。
超强时空一致性
要求它以《戴珍珠耳环的少女》为灵感,生成一只蓝眼睛的橙色猫,可以看出,Vidu生成了连贯的视频。
从旋转的各个视角看,都非常逼真,甚至让人产生了「这是一个3D模型」的错觉。
它生成的视频中,人物和场景在时空中始终保持一致
理解中国元素
相比国外的AI视频模型,Vidu也更理解中国元素。熊猫、龙这样的中国元素,它都能理解和生成。
团队背景
最后,再聊下「Vidu」背后的团队——生数科技,这是一支清华背景的精英团队,专注于图像、3D、视频等多模态大模型领域。生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任;CEO唐家渝本硕就读于清华大学计算机系,是THUNLP组成员;CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT和UniDiffuser两项工作均是由他主导完成的。
团队从事生成式人工智能和贝叶斯机器学习的研究已有20余年,在深度生成模型产生的早期就开展了深入研究。在扩散模型方面,团队在国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
评论0