OpenAI Sora视频生成模型技术报告

2024年 2月 27日运维资讯醒在深海的猫

导读：昨天OpenAI发布了正在封闭测试的Sora，其是文本生成图像的大模型产品。本文为它的生成模型技术报告。

OpenAI 探索了视频数据生成模型的大规模训练。具体来说，研究人员在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散图像模型。利用作者对视频和图像潜在的代码时空碎片进行变压器架构的操作，其最大的模型Sora能够生成长达一分钟的高质量视频。

OpenAI 认为，新展示的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前景的途径。我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空进行架构操作。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。技术报告地址：https://openai.com/research/video- Generation-models-as-world-simulators

OpenAI在技术报告中展示的重点是：（1）将所有类型的视线数据转化为统一表示，从而能够大规模生成模型的方法；以及（2）对Sora的能力并由此进行定性评估。本技术报告重点关注（1）我们将所有类型的视线数据转化为统一表示的方法，从而能够大规模训练生成模型，以及（2）对Sora的能力和局限性进行定性评估。本报告不包含模型和实施细节。令人遗憾的是，OpenAI 的报告不包含模型和训练的细节。最近一段时间，视频生成是AI领域的重要方向，前期的许多工作研究了视频数据的生成建模方向，包括循环网络、生成对抗网络、自回归变压器和扩散模型。这些工作通常关注一类视觉模型数据、有吸引力的视频或固定大小的视频。许多以前的工作已经使用各种方法研究了视频数据的生成建模，包括循环网络、生成对抗网络、4,5,6,7自恢复变压器，8,9和扩散模型。10,11,12 Sora 是数据的通用模型，它可以生成不同的时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。不同的是，OpenAI 的 Sora 是视觉数据的通用模型，它可以生成不同的时长、长宽比和解析的视频和图像，并且最多可以输出长达一分钟的高清视频。视窗数据转为站点大型语言模型通过在互联网规模的数据上进行训练，获得了出色的通用能力中，OpenAI 从这一点汲取了灵感。LLM 得以确立新范式，部分借鉴创新了代币使用的方法。研究人员们巧妙地解决了这个问题。文本文本的多种模式——代码、数学和各种自然语言统一的矛盾。在这项工作中，OpenAI考虑了动态数据模型如何继承方法的好处。大型语言模型有文本标记，而Sora有动态补丁。队列的研究已经证明补丁是动态数据模型的有效表示。OpenAI发现项目是训练生成各种类型视频和图像模型的可扩展且有效的表示。在更高层面上，OpenAI 首先将视频压缩到较低维的潜在空间，然后将表示划分为时空补丁，从而将视频转换为补丁。我们从大型语言模型中汲取灵感，这些模型通过互联网规模的数据训练来获得通才能力。13,14 LLM 范例的成功部分是通过使用标记来实现的，这些标记优雅地统一了文本代码、数学和各种形式的不同模式。自然语言。在这项工作中，我们考虑视觉数据的生成模型如何继承这些好处。LLM 有文本标记，而 Sora 有视觉补丁。补丁之前已被证明是视觉数据模型的有效表示。15,16,17,18 我们发现补丁是一种高度可扩展且有效的表示，用于在不同类型的视频和图像上训练生成模型。 视频压缩网络OpenAI 训练了一个降低数据维度的网络。该网络将原始视频作为训练输入，并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练，然后生成视频。OpenAI 还了相应的解码器模型，将生成的潜在表示映射回像素空间。我们训练了一个降低视觉数据维度的网络。20 该网络将原始视频作为输入，并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型，将生成的潜伏映射回像素空间。 时空潜在补丁给定一个压缩的输入视频，OpenAI提取一系列时空补丁，充当Transformer的令牌。该方案也适用于图像，因为图像可视为单帧视频。OpenAI基于补丁的表示使Sora能够对不同的分辨率、持续性对时间和长宽比的视频和图像进行训练。在推理时，OpenAI 可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。给定一个压缩的输入视频，我们提取一系列时空补丁，充当变压器令牌。该方案也适用于图像，因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

用于视频生成的缩放变压器

用于视频生成的扩展变压器

Sora 是扩散模型21,22,23,24,25；给定输入噪声补丁（以及文本提示等调节信息），它被训练来预测原始的“干净”补丁。重要的是，Sora 是一个扩散变压器。26 Transformers 在多个领域展示了卓越的缩放特性，包括语言建模、13,14 计算机视觉、15、16、17、18 和图像生成。27,28,29 Sora 是一个扩散模型；给定输入的噪声块（和像文本提示这样的条件信息），它被训练来预测原始的“干净”块。重要的是，Sora是一个扩散变换器。变换器包括语言建模、计算机视觉和图像生成等多个领域的演习具有显着的扩展属性。

在这项工作中，我们发现扩散变压器也可以有效地缩放为视频模型。下面，我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显着提高。在这项工作中，我们发现扩散变换器视频模型也能有效地扩展。下面，我们展示了训练进展过程中，使用固定种子和输入的视频样本作为比较。随随着计算量的增加，样本质量显着提高。

可变的持续时间、分辨率、宽高比

可变持续时间、分辨率、宽高比过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，例如，分辨率为 256×256 的 4 秒视频。我们发现，以原始大小对数据进行训练有几个好处。过去在图像和视频生成中的方法通常会将视频调整大小、修剪或剪辑到一个标准尺寸——例如，4秒长的视频，分辨率为256×256。我们发现，直接在数据的原始尺寸上进行训练可以带来几个好处。

采样灵活性

灵活

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 – 所有这些都使用相同的模型。 Sora可以采集宽屏1920x1080p视频、竖屏1080×1920视频以及替换之间的所有格式。这使得Sora能够直接按照不同设备的原始宽高比创建内容。它还允许我们在使用同一模型生成全分辨率之前的内容，原型的内容尺寸迅速缩小。

改进的框架和构图

改进的结构图和画面组成我们根据经验发现，以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。在方形作物（左）上训练的模型有时会生成仅部分可见主体的视频。相比之下，Sora 的视频（右）的取景有所改善。我们通过间接发现，在视频的原始宽高比上进行训练可以改善结构图和取景。我们将 Sora 与一个版本的模型进行了比较，该模型将所有训练视频都会生成托盘，这是训练生成模型时训练的常见做法。在托盘上的模型（左边）有时会生成主体只部分出现在视野中的视频中。相比之下，来自Sora的视频（右侧）具有优美的景色。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将 DALL·E 330 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。训练文本到视频生成系统需要大量带有相应文字标题的视频。我们将在 DALL·E 3 中引入重新标签技术应用于视频描述上。我们首先训练一个高度性的标注模型，然后用它为我们集中训练的所有视频生成文字标题。我们发现，在描述高度性的视频标题上可以进行训练文本的准确性以及提高视频的整体质量。与 DALL·E 3 类似，我们还利用 GPT 将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。类似于 DALL·E 3，我们也利用 GPT 将用户的简短提示高转换成更长的详细说明，然后发送给视频模型。这使得 Sora 能够生成视频模型高质量的视频，准确地遵循用户的提示。

通过图像和视频进行提示

使用图片和视频进行提示上面和我们的着陆页中的所有结果都显示文本到视频的示例。但 Sora 也可以通过其他输入进行提示，例如预先存在的图像或视频。此功能使 Sora 能够执行广泛的图像和视频编辑任务 – 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。上述结果以及我们的登录页面展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示，例如预先存在的图片或视频。这种能力使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频，为静态图像添加动画，或向前方后延长视频的时间等。

动画 DALL·E 图像制作 DALL·E图像动画

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示了基于 DALL·E 231 和 DALL·E 330 图像生成的示例视频。 Sora能够根据输入的图片和提示生成视频。下面我们展示了基于DALL·E 2 31和DALL·E 3 30图片生成的示例视频。

扩展生成的视频

延长生成的视频Sora 还能够在时间上向前或向后扩展视频。下面是四个视频，它们都是从生成的视频片段开始向后延伸的。因此，这四个视频的开头都不同，但所有四个视频的结局都是相同的。 Sora也能够将视频向前或硬盘延长时间。下面是四个视频，它们都是从生成的视频片段开始硬盘延长的。因此，这四个视频的开头各不相同，但最终都会达到相同的结局。我们可以使用这种方法向前和向后扩展视频，以产生无缝的无限循环。我们可以使用这种方法将视频向前和向后扩展，以制作出无缝的无限循环。

视频到视频编辑视频到视频编辑

扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们将其中一种方法 SDEdit,32 应用于 Sora。这项技术使Sora能够零镜头地变换输入视频的风格和环境。扩散模型使得从文本提示编辑图像和视频的方法层出不穷。下面我们将其中一种方法，SDEdit，评估Sora。这个技术使Sora能够零次学习地转换输入视频的风格和环境。

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中心的视频在左侧和右侧的相应视频之间插值。我们还可以使用 Sora 在两个输入视频之间逐渐插值，创建在完全不同的主题和场景构成的视频之间的无缝接口。在下面的例子中，中间的视频在左右两侧对应视频之间进行插值。

图像生成能力

图片生成能力Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达 2048×2048。 Sora也能够生成图像。我们通过在一个帧时间范围的空间网格中排列高斯噪声块来实现这一点。该模型可以生成不同大小的图像——分辨率最高可达2048×2048。

秋季女性特写肖像照，极其细节，浅景深

秋天里一位女性的特写肖像，最高细节，浅景深充满活力的珊瑚礁充满了色彩缤纷的鱼类和海洋生物充满活力的珊瑚礁，挤满了五彩斑斓的鱼类和海洋生物苹果树下一只小老虎的数字艺术，采用哑光绘画风格，细节华丽数字艺术：一只年老虎在苹果树下，采用哑光绘画风格，细节华丽

一个雪山村庄，拥有舒适的小屋和北极光显示，高细节和逼真的单反相机，50mm f/1.2 一个雪山村庄，拥有舒适的小木屋和北极光展示，高灵活性和清新的数码单反相机，50mm f/ 1.2镜头拍摄。

新兴的模拟功能

满意的模拟能力我们发现，视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是规模现象。我们发现，当在大规模上训练时，视频模型表现出了许多有趣的新兴能力。这些能力使得 Sora 能够进行模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对 3D、物体等的明确结论偏见——它们纯粹是规模效应的现象。 3D 一致性。Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。 3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转，人物和场景元素在三维空间中保持一致地移动。

远程相干性和物体持久性。视频生成系统面临的一个 重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持它们的外观。长距离一致性和指向恒存性。对于视频生成系统来说，一个重大挑战是采样长视频时保持时间上的连贯性。我们发现，并不总是如此，Sora 通常能够有效地建模短距离和长距离依赖关系。例如，我们的模型即使在人、动物和物体被遮挡或离开画面时，也能够持续保持它们的存在。同样，它能够在多个单个样本中生成相同角色的镜头，并在整个视频中保持其外观。

与世界互动。索拉有时可以用简单的方式模拟影响世界状况的动作。例如，画家可以在画布上留下新的笔画，并随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。与世界的互动。Sora有时可以模拟一些简单的动作来影响世界的状态。例如，画家可以在最后留下随时间持续存在的新笔触，或者一个人可以吃一个汉堡并留下咬痕。

模拟数字世界。Sora 还能够模拟人工过程——一个例子是视频游戏。Sora 可以同时通过基本策略控制《我的世界》中的玩家，同时以高保真度渲染世界及其动态。这些功能可以通过提示 Sora 并提及“Minecraft”的标题来零射击。模拟数字世界。Sora 也能够模拟人工过程——一个例子是视频游戏。Sora 可以同时控制《我的世界》中的玩家采用基本的策略同时，还能以高保真度渲染世界及其动态。通过前面提到的“我的世界”的字幕提示索拉，可以零次尝试激发这些能力。这些功能表演、视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前景的道路。这些能力表演、持续扩展视频模型正在朝着开发高度能够模拟物理和数字世界其内部的情感、动物和人类所希望的道路。

讨论讨论

Sora 目前作为模拟器表现出许多限制。例如，它不能准确地模拟许多基本交互的物理过程，例如玻璃破碎。其他交易（例如吃食物）并不总是会产生对象状态的正确变化。在登陆页面中列出了模型的其他常见故障模式，例如长时间样本中出现的不连贯性或对象的自动出现。Sora作为目前的模拟器进行了许多。例如，它并没有准确地限制交互的基本物理效应，比如玻璃破碎。其他交易，比如吃食物，并不总是产生正确的目标变化状态。我们在我们的登录页面列举了模型的其他常见故障模式——比如在长时间样本中发展的不连贯性或物体的自动出现。我们相信，Sora今天所拥有的能力表明，视频模型的持续扩展是开发物理和数字世界以及生活中的物体、动物和人的强力模拟器的一条有前景的道路。我们相信，Sora目前的能力表明，持续扩展视频模型正在朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的有希望的道路。

原文链接：

https://openai.com/research/video- Generation-models-as-world-simulators