Sora

用文本创建视频

Sora 是一个AI 模型,可以根据文本指令创建现实且富有想象力的场景。

阅读技术报告

我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

隆重介绍 Sora,我们的文本转视频模型。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。

Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。

该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。Sora 还可以在单​​个生成的视频中创建多个镜头,准确地保留角色和视觉风格。

当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。

该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。