Sora

OpenAI推出了Sora，它是一款新的文本到视频的人工智能模型。Sora可以根据文本指令创建长达一分钟的逼真且富有想象力的视频场景。

OpenAI表示，他们的愿景是构建能够理解和模拟物理世界运动的人工智能系统，并训练模型解决需要真实世界互动的问题。

能力

Sora可以生成保持高视觉质量并符合用户提示的视频。Sora还具有生成包含多个角色、不同运动类型和背景的复杂场景，并理解它们之间关系的能力。其他功能包括在单个视频中创建多个镜头，跨角色和视觉风格保持连贯。以下是由Sora生成的一些视频示例。

提示：

一位时尚女士走在东京街头，街道上充满温暖的霓虹灯和动画城市标识。她穿着一件黑色皮夹克，一条长红色连衣裙，黑色靴子，背着一个黑色手袋。她戴着墨镜和红色口红。她自信而随意地走着。街道潮湿而反光，形成了多彩灯光的镜像效果。许多行人在周围走动。

提示：

一部电影预告片，讲述了一位戴着红色羊毛编织摩托车头盔的30岁太空人的冒险故事，背景是蓝天、盐沙漠，采用电影风格，35毫米胶片拍摄，色彩鲜明。

视频来源：https://openai.com/sora

方法

据报道，Sora是一个扩散模型，可以生成整个视频或延长已生成的视频。它还使用了Transformer架构，从而提高了性能。视频和图像被表示为补丁，类似于GPT中的标记，从而实现了统一的视频生成系统，使其能够实现更长的持续时间、更高的分辨率和更大的宽高比。他们使用了DALL·E 3中使用的重新标题技术，使Sora能够更紧密地遵循文本指令。Sora还能够根据给定的图像生成视频，从而使系统能够准确地为图像添加动画。

限制和安全性

据报道，Sora的限制包括模拟物理和缺乏因果关系。有时Sora也会误解提示中描述的空间细节和事件（例如，摄像机轨迹）。OpenAI表示，他们正在向红队人员和创作者提供Sora，以评估其危害和能力。

提示：

提示：一个人在奔跑的场景，以35毫米电影拍摄。

视频来源：https://openai.com/sora

在这里找到更多由Sora模型生成的视频示例：https://openai.com/sora

Sora

能力​

方法​

限制和安全性​

能力

方法

限制和安全性