Sora
OpenAI 推出了其新的文本到视频 AI 模型 Sora。Sora 可以根据文本指令创建长达一分钟的逼真且富有想象力的场景视频。
OpenAI 报告称,其愿景是构建能够理解和模拟运动中的物理世界的人工智能系统,并训练模型以解决需要现实世界交互的问题。
功能
Sora 可以生成保持高视觉质量并符合用户提示的视频。Sora 还能够生成包含多个角色、不同运动类型和背景的复杂场景,并理解它们之间的关系。其他功能包括在单个视频中创建多个镜头,并在角色和视觉风格上保持一致。以下是 Sora 生成的一些视频示例。
提示:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
提示:
A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
视频来源: https://openai.com/sora (在新标签页中打开)
方法
据报道,Sora 是一种扩散模型,可以生成整个视频或扩展生成的视频。它还使用了 Transformer 架构,从而提高了扩展性能。视频和图像被表示为补丁,类似于 GPT 中的标记,从而形成了一个统一的视频生成系统,支持更长的持续时间、更高的分辨率和更宽的宽高比。他们使用了 DALL·E 3 中使用的重新描述技术,使 Sora 能够更紧密地遵循文本指令。Sora 还能够从给定的图像生成视频,从而使系统能够准确地动画化图像。
限制与安全
据报道,Sora的局限性包括模拟物理和缺乏因果关系。提示中描述的空间细节和事件(例如,相机轨迹)有时也会被Sora误解。OpenAI报告称,他们正在向红队和创作者提供Sora,以评估其危害和能力。
提示:
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.
视频来源: https://openai.com/sora (在新标签页中打开)
在这里找到更多由Sora模型生成的视频示例:https://openai.com/sora(在新标签页中打开)