继ChatGPT之后,OpenAI又推出一款震惊科技圈的产品。

今日凌晨,OpenAI宣布推出文生视频大模型——Sora。
据介绍,Sora可以创建长达60秒的视频,具有非常详细的场景,复杂的摄像机运动,和充满活力的情感的多个角色。
OpenAI:Sora了解用户在提示中要求的内容

还了解这些东西在物理世界中的存在方式

据其官网介绍,OpenAI正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。
其文生视频模型Sora,可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。
Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。
该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。Sora还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。
从其官网介绍来看,Sora是一种扩散模型,它通过从一个看起来像静态噪声的视频开始生成视频,然后通过多步去除噪声来逐渐转换视频。
Sora能够一次性生成整个视频或扩展生成的视频,使其更长。通过一次为模型提供多帧的前瞻性,我们解决了一个具有挑战性的问题,即确保主体即使暂时离开视野也保持不变。
类似于GPT模型,Sora使用变压器架构,解锁卓越的缩放性能。
Sora将视频和图像表示为称为补丁 (patch)的更小数据单元的集合,每个补丁都类似于GPT中的令牌。通过统一Sora如何表示数据,Sora可以在比以前更广泛的可视数据上训练扩散变换器,跨越不同的持续时间、分辨率和宽高比。
Sora建立在过去的研究在DALL·E和GPT模型。它使用DALL·E 3中的重新捕获技术,该技术涉及为视觉训练数据生成高度描述性的字幕。结果,该模型能够更忠实地遵循生成的视频中的用户的文本指示。
除了能够完全从文本指令生成视频外,该模型还能够利用现有的静态图像并从中生成视频,对图像的内容进行精确动画处理,并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充丢失的帧。
安全方面,OpenAI表示,在其产品中提供Sora之前,OpenAI将采取几个重要的安全措施。
OpenAI正在与红队成员合作,他们是错误信息、仇恨内容和偏见等领域的领域专家,他们将对模型进行对抗性测试。
OpenAI还开发了一些工具来帮助检测误导性内容,比如一个检测分类器,它可以告诉OpenAI一个视频是什么时候由Sora生成的。
除了开发新技术为部署做准备外,OpenAI还利用了为使用DALLE 3的产品构建的现有安全方法,这些方法也适用于Sora。
OpenAI还开发了强大的图像分类器,用于检查生成的每个视频的帧,以确保视频在向用户显示之前符合我们的使用策略。
OpenAI将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧,并为这项新技术确定积极的使用案例。
OpenAI表示,尽管其进行了广泛的研究和测试,但无法预测人们使用其技术的所有有益方式,也无法预测人们滥用技术的所有方式。
这就是为什么OpenAI相信从实际使用中学习是随着时间的推移创建和发布越来越安全的人工智能系统的关键组成部分。

视频效果:时间长、多角色、多镜头,但也有缺点

在Sora官网,一共展示了48个文本生成的视频。
我们来看下部分文生视频的效果。
提示:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
提示:几只巨大的毛茸茸的猛犸象踩着白雪皑皑的草地走近,它们长长的毛茸茸的毛毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的白雪皑皑的山脉,午后的光线与薄薄的云层和远处高高的太阳营造出温暖的光芒,低相机视角令人惊叹,用美丽的摄影捕捉了大型毛茸茸的哺乳动物,景深。
提示:无人机视角,海浪拍打着大苏尔加雷角海滩崎岖的悬崖。汹涌澎湃的蓝色海水掀起白色的波浪,而夕阳的金色光芒照亮了岩石海岸。远处有一个带灯塔的小岛,绿色的灌木丛覆盖着悬崖的边缘。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖的边缘突出在海面上。这张照片捕捉到了海岸的原始美景和太平洋海岸公路崎岖的景观。
提示:动画场景有一个特写镜头,一个毛茸茸的短怪物跪在一根融化的红蜡烛旁边。艺术风格是3D和逼真的,重点是照明和纹理。这幅画的情绪是一种惊奇和好奇,因为怪物睁大眼睛和张开嘴巴凝视着火焰。它的姿势和表情传达出一种纯真和俏皮的感觉,仿佛它是第一次探索周围的世界。暖色调和戏剧性照明的使用进一步增强了图像的舒适氛围。
提示:逼真的特写视频,两艘海盗船在一杯咖啡中航行时相互争斗。
提示:一个玻璃球的特写视图,里面有一个禅宗花园。球体中有一个小矮人,他正在禅宗花园里耙地,在沙子上创造图案。
提示:中国龙的中国农历新年庆祝视频。
提示:纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游来游去。
不过,OpenAI表示,目前该模型有弱点。它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。
该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。
提示:一个人奔跑的步印场景,以35毫米拍摄的电影胶片。提示:一个人奔跑的步印场景,以35毫米拍摄的电影胶片。
弱点:Sora有时会产生身体上难以置信的动作。
提示:考古学家在沙漠中发现了一把普通的塑料椅子,小心翼翼地挖掘和除尘。
弱点:在这个例子中,Sora未能将椅子建模为一个刚性物体,导致不准确的物理交互。

Sora非首个文生视频大模型

虽然文生视频已不是新鲜事,但相比于Sora,此前的文生视频大模型所能生成的视频时间很短。
去年,信雅达实控人郭华强的女儿在国外创立AI公司——Pika Labs发布的文生视频大模型Pika 1.0曾轰动一时。
该产品只需某张图片输入所需要的动态指令,或者框选某段视频的某个部位,输入指令,就能生成相应的视频。
当时,有不少网友都表示,该产品生成的视频质量属实很炸裂,但只能生成3秒以内的视频,这点有些影响体验。

Sora可能带来的影响

如果Sora能够真正意义上实现文生视频,可能会带来哪些影响呢?
1、没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的“虚拟偶像”,此前的二次元人物并没有真正达到“偶像”的级别。
2、利好编剧行业,剧本、文本创作力成为核心竞争力。
3、Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
4、OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
5、直接的影响是影视行业,特别是特效行业。使用AI来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
6、摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
7、短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
8、对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
9、很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
10、另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。
不过,从Sora官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。
在Sora官网,OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,OpenAI相信这一能力将是实现AGI的重要里程碑。
至于Sora文生视频到底能带来多大影响,会不会翻车,还需要“让子弹飞一会儿”。