OpenAI官方技术报告,揭秘Sora最强视频生成模型

近日,OpenAI推出其首个文生视频大模型Sora,能生成长达1分钟的高清视频,效果炸裂,OpenAI又一次引起业界轰动。

Sora到底是怎么实现的?其中包含了那些秘籍呢?接下来让我们来看一下OpenAI给出的技术报告。

 

《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

报告地址:https://openai.com/research/video-generation-models-as-world-simulators

本文探索了在视频数据上大规模训练生成模型。在不同持续时间、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。利用transformer架构,对视频和图像潜代码的时空Patches进行操作。我们最大的模型Sora能够生成一分钟的高保真视频。实验结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。

本技术报告侧重于:

1)将所有类型的视觉数据转换为统一表示的方法,以实现对生成模型的大规模训练;

2)对Sora的能力和局限性的定性评估。

Sora是一个视觉数据的通用模型,它可以生成跨越不同持续时间、纵横比和分辨率的视频和图像,最高可达一分钟的高清视频。

 

将视觉数据转换为Patches

LLM范式的成功在一定程度上是通过使用标记来实现的,这些标记优雅地统一了文本-代码、数学和各种自然语言的不同模态。本文考虑视觉数据的生成模型如何继承这些好处。LLM有文本标记,而Sora有视觉Patches。之前,Patches被证明是视觉数据模型的有效表示方法。

《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

在较高层次上,通过首先将视频压缩到低维潜空间,然后将表示分解为时空Patches,将视频转换为Patches。

视频压缩网络

我们训练一个网络来降低视觉数据的维度该网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜空间中进行训练并随后生成视频。还训练了一个相应的解码器模型,将生成的潜函数映射回像素空间。

时空潜在Patches

给定一个压缩的输入视频,提取一个时空Patches序列,作为transformer标记。这个方案也适用于图像,因为图像只是具有单帧的视频。基于Patches的表示使Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,可以通过将随机初始化的Patches安排在大小适当的网格中来控制生成的视频的大小。

用于视频生成的缩放transformer

Sora是扩散模型,给定输入的噪声Patches(和像文本提示这样的条件信息),它被训练成预测原始“干净”Patches。重要的是,Sora是一个扩散转换器transformer在各种领域都表现出了显著的缩放特性,包括语言建模,计算机视觉,和图像生成。

《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

本文发现扩散transformer也可以有效地扩展为视频模型。下面,我们在训练过程中展示了具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。

可变的持续时间,分辨率,纵横比

过去的图像和视频生成方法通常将视频的大小、裁剪或修剪为标准大小——例如,分辨率为256×256的4秒视频。用原始大小的数据进行训练有几个好处。

采样的灵活性

Sora可以采样宽屏1920x1080p的视频,垂直1080×1920的视频和之间的一切。这让Sora可以直接以其原生的纵横比为不同的设备创建内容。它还可以让我们在生成完整分辨率之前快速地以较低尺寸创建原型内容——所有内容都使用相同的模型。

改进的框架和构图

通过经验发现,以原始的纵横比对视频进行训练,可以改善构图和框架。我们将Sora与我们的模型的一个版本进行比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在方形作物上训练的模型(左)有时会生成主题只部分出现在视野中的视频。相比之下,来自苍井空(右)的视频改进了帧。

语言理解

训练文本到视频生成系统需要大量具有相应文本字幕的视频。我们将DALL·E 330中介绍的重字幕技术应用于视频。我们首先训练一个高度描述性的captioner模型,然后使用它为训练集中的所有视频生成文本标题。对高度描述性的视频字幕进行训练,可以提高文本保真度以及视频的整体质量。

与DALL·E 3类似,我们还利用GPT将简短的用户提示转换为更长的详细说明,并发送到视频模型。这使Sora能够准确地根据用户提示生成高质量的视频。

用图像和视频提示

上面的所有结果和我们的登录页面中都显示了文本到视频的示例。但Sora也可以被提示其他输入,如预先存在的图像或视频。这种能力使Sora能够执行广泛的图像和视频编辑任务——创建完美的循环视频,静态图像动画,时间向前或向后扩展视频,等等。

DALL·E图片动画化

Sora能够生成视频,提供图像和提示作为输入。下面我们展示基于DALL·E 231和DALL·E 330图像生成的示例视频。

《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

扩展生成的视频

Sora还可以在时间上向前或向后扩展视频。下面是四个视频,它们都是从生成的视频的一段开始按时间向后扩展的。因此,四个视频的开始都不同于其他视频,但四个视频的结局都是一样的。

视频编辑

扩散模型使从文本提示编辑图像和视频的大量方法成为可能。下面我们将其中一种方法SDEdit应用于Sora。该技术使Sora能够零样本地转换输入视频的风格和环境。

视频连接

我们还可以使用Sora在两个输入视频之间逐步进行插值,在具有完全不同的主题和场景组成的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间进行插值。

图像生成能力

Sora也能够生成图像。我们通过在时间范围为一帧的空间网格中安排高斯噪声Patches来实现这一点。该模型可以生成不同尺寸的图像,最高可达2048×2048分辨率。

《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区  《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区  《OpenAI官方技术报告,揭秘Sora最强视频生成模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

新兴的仿真能力

视频模型在大规模训练时表现出许多有趣的新兴能力。这些功能使Sora能够从物理世界中模拟人、动物和环境的某些方面。这些属性的出现没有对3D、物体等的任何明确的归纳偏差——它们纯粹是尺度现象。

3D的一致性。Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

长时间连贯性和物体持久性。视频生成系统的一个重大挑战是在长视频采样时保持时间一致性。Sora通常(尽管不总是)能够有效地对短期和长程依赖性进行建模。例如,我们的模型可以持久化人,动物和物体,即使他们被遮挡或离开框架。同样,它可以在单个样本中生成相同角色的多个镜头,在整个视频中保持它们的外观。

与世界互动。Sora有时可以模拟以简单方式影响世界状态的动作。例如,一个画家可以在画布上留下新的笔画,随着时间的推移,或者一个人可以吃一个汉堡,留下咬痕。

模拟数字世界。Sora还能够模拟人工过程,例如电子游戏。在《我的世界》中,Sora可以使用基本策略同时控制玩家,同时高保真地渲染世界及其动态。这些能力可以通过提示Sora提到“Minecraft”的标题来零次激发。

这些能力表明,视频模型的持续缩放是一条有希望的道路,可以发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器。

讨论

Sora目前表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理,如玻璃破碎。其他的交互,比如吃东西,并不总是产生物体状态的正确变化。在登录页面中列举了该模型的其他常见失效模式,如长时间样本中出现的不一致或物体的自发出现。

我们相信,Sora今天所具有的能力表明,视频模型的持续缩放是一条有希望的道路,可用于开发物理和数字世界以及生活在其中的物体、动物和人的仿真器。

0

评论0

请先
显示验证码