OpenAI Sora视频生成模型技术报告
导读:昨天OpenAI发布了正在封闭测试的Sora,其是文本生成图像的大模型产品。本文为它的生成模型技术报告。
OpenAI 探索了视频数据生成模型的大规模训练。具体来说,研究人员在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散图像模型。利用作者对视频和图像潜在的代码时空碎片进行变压器架构的操作,其最大的模型Sora能够生成长达一分钟的高质量视频。
用于视频生成的缩放变压器
用于视频生成的扩展变压器
Sora 是扩散模型21,22,23,24,25;给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。重要的是,Sora 是一个扩散变压器。26 Transformers 在多个领域展示了卓越的缩放特性,包括语言建模、13,14 计算机视觉、15、16、17、18 和图像生成。27,28,29 Sora 是一个扩散模型;给定输入的噪声块(和像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个扩散变换器。变换器包括语言建模、计算机视觉和图像生成等多个领域的演习具有显着的扩展属性。
在这项工作中,我们发现扩散变压器也可以有效地缩放为视频模型。下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。 在这项工作中,我们发现扩散变换器视频模型也能有效地扩展。下面,我们展示了训练进展过程中,使用固定种子和输入的视频样本作为比较。随随着计算量的增加,样本质量显着提高。
可变的持续时间、分辨率、宽高比
可变持续时间、分辨率、宽高比过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如,分辨率为 256x256 的 4 秒视频。我们发现,以原始大小对数据进行训练有几个好处。过去 在图像和视频生成中的方法通常会将视频调整大小、修剪或剪辑到一个标准尺寸——例如,4秒长的视频,分辨率为256x256。我们发现,直接在数据的原始尺寸上进行训练可以带来几个好处。采样灵活性
灵活
Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。 Sora可以采集宽屏1920x1080p视频、竖屏1080x1920视频以及替换之间的所有格式。这使得Sora能够直接按照不同设备的原始宽高比创建内容。它还允许我们在使用同一模型生成全分辨率之前的内容,原型的内容尺寸迅速缩小。
改进的框架和构图
改进的结构图和画面组成我们根据经验发现,以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较,这是训练生成模型时的常见做法。在方形作物(左)上训练的模型有时会生成仅部分可见主体的视频。相比之下,Sora 的视频(右)的取景有所改善。 我们通过间接发现,在视频的原始宽高比上进行训练可以改善结构图和取景。我们将 Sora 与一个版本的模型进行了比较,该模型将所有训练视频都会生成托盘,这是训练生成模型时训练的常见做法。在托盘上的模型(左边)有时会生成主体只部分出现在视野中的视频中。相比之下,来自Sora的视频(右侧)具有优美的景色。
语言理解
语言理解

改进的框架和构图
改进的结构图和画面组成我们根据经验发现,以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较,这是训练生成模型时的常见做法。在方形作物(左)上训练的模型有时会生成仅部分可见主体的视频。相比之下,Sora 的视频(右)的取景有所改善。 我们通过间接发现,在视频的原始宽高比上进行训练可以改善结构图和取景。我们将 Sora 与一个版本的模型进行了比较,该模型将所有训练视频都会生成托盘,这是训练生成模型时训练的常见做法。在托盘上的模型(左边)有时会生成主体只部分出现在视野中的视频中。相比之下,来自Sora的视频(右侧)具有优美的景色。
语言理解
使用图片和视频进行提示上面和我们的着陆页中的所有结果都显示文本到视频的示例。但 Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行广泛的图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。 上述结果以及我们的登录页面展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图片或视频。这种能力使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频,为静态图像添加动画,或向前方后延长视频的时间等。
动画 DALL·E 图像 制作 DALL·E图像动画 Sora 能够生成提供图像和提示作为输入的视频。下面我们展示了基于 DALL·E 231 和 DALL·E 330 图像生成的示例视频。 Sora能够根据输入的图片和提示生成视频。下面我们展示了基于DALL·E 2 31和DALL·E 3 30图片生成的示例视频。 

扩展生成的视频
延长生成的视频Sora 还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从生成的视频片段开始向后延伸的。因此,这四个视频的开头都不同,但所有四个视频的结局都是相同的。 Sora也能够将视频向前或硬盘延长时间。下面是四个视频,它们都是从生成的视频片段开始硬盘延长的。因此,这四个视频的开头各不相同,但最终都会达到相同的结局。
我们可以使用这种方法向前和向后扩展视频,以产生无缝的无限循环。我们可以使用这种方法 将视频向前和向后扩展,以制作出无缝的无限循环。视频到视频编辑 视频到视频编辑 扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们将其中一种方法 SDEdit,32 应用于 Sora。这项技术使Sora能够零镜头地变换输入视频的风格和环境。 扩散模型使得从文本提示编辑图像和视频的方法层出不穷。下面我们将其中一种方法,SDEdit,评估Sora。这个技术使Sora能够零次学习地转换输入视频的风格和环境。 
连接视频
连接视频 我们还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频在左侧和右侧的相应视频之间插值。 我们还可以使用 Sora 在两个输入视频之间逐渐插值,创建在完全不同的主题和场景构成的视频之间的无缝接口。在下面的例子中,中间的视频在左右两侧对应视频之间进行插值。

图像生成能力

视频到视频编辑 视频到视频编辑 扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们将其中一种方法 SDEdit,32 应用于 Sora。这项技术使Sora能够零镜头地变换输入视频的风格和环境。 扩散模型使得从文本提示编辑图像和视频的方法层出不穷。下面我们将其中一种方法,SDEdit,评估Sora。这个技术使Sora能够零次学习地转换输入视频的风格和环境。 
连接视频
连接视频 我们还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频在左侧和右侧的相应视频之间插值。 我们还可以使用 Sora 在两个输入视频之间逐渐插值,创建在完全不同的主题和场景构成的视频之间的无缝接口。在下面的例子中,中间的视频在左右两侧对应视频之间进行插值。

图像生成能力
连接视频 我们还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频在左侧和右侧的相应视频之间插值。 我们还可以使用 Sora 在两个输入视频之间逐渐插值,创建在完全不同的主题和场景构成的视频之间的无缝接口。在下面的例子中,中间的视频在左右两侧对应视频之间进行插值。

图像生成能力
图片生成能力Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。 Sora也能够生成图像。我们通过在一个帧时间范围的空间网格中排列高斯噪声块来实现这一点。该模型可以生成不同大小的图像——分辨率最高可达2048x2048。
秋季女性特写肖像照,极其细节,浅景深


一个雪山村庄,拥有舒适的小屋和北极光显示,高细节和逼真的单反相机,50mm f/1.2 一个雪山村庄,拥有舒适的小木屋和北极光展示,高灵活性和清新的数码单反相机,50mm f/ 1.2镜头拍摄。
新兴的模拟功能
满意的模拟能力我们发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是规模现象。 我们发现,当在大规模上训练时,视频模型表现出了许多有趣的新兴能力。这些能力使得 Sora 能够进行模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对 3D、物体等的明确结论偏见——它们纯粹是规模效应的现象。 3D 一致性。Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。 3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。