OpenAI的Sora模型惊艳业界,文字视频比实物更真实

OpenAI正式推出基于文字生成比实物更真实的视频的Sora后,一下子成为春节假期中国科技行业的热点。

不过,Sora的文本生成视频模式虽然已经正式发布,但目前仅限于特邀团体的早期调用,尚未全面向全球AI用户开放。从目前外媒的报道来看,借助Sora生成的视频已经非常震撼了,即使视频场景和物体的细节还存在一些缺陷,这将开创大型模型开发的新先例。

由MITTechnologyViewpoint网站推出,OpenAI构建了这款引人注目的新型生成视频模型Sora,它可以将简短的文本描述转换为长达一分钟的详细高清电影剪辑。

OpenAI科学家TimBrooks认为,构建一个能够理解视频并理解现实世界中所有这些非常复杂的交互的模型,是所有人工智能系统未来发展的重要一步。

根据数据,第一个可以从文本片段制作视频的生成模型出现在2022年底。这是来自Meta、Google和一家名为Runway的初创公司的早期示例,但它们都存在故障和颗粒。感觉。从那时起,该技术变得越来越快。Runway去年发布的第二代机型可以制作出与主要工作室制作的质量接近的短片,尽管这些短片大多数只有几秒钟的长度。OpenAI的

Sora将文本生成视频模型技术提升到了一个新的水平。Sora的示例视频高清且细节丰富,可以生成长达一分钟的视频。

当然,已经发布的文本生成视频的例子存在明显缺陷,OpenAI将进一步优化和迭代该技术。

例如,OpenAI的Sora虽然对遮挡处理得很好,但现有模型存在一个突出的问题。当物体消失时,空可能无法追踪该物体。如果卡车经过路标前,该路标稍后可能不会再出现。

在Papercraft水下场景的视频中,Sora在不同镜头之间添加了看起来像是剪切的内容,并且模型在它们之间保持了一致的风格。

Sora虽然并不完美,但也让全球AI界惊叹不已。

东京视频中,左边的车看起来比旁边的人小,而且车子实际上是在树枝间进出。

可见,Sora在长期一致性能力方面肯定还有一些工作要做。

当然,遗憾的是,OpenAI目前还没有向公众发布Sora的计划。目前,只有OpenAI和第三方合作伙伴特别邀请的人员正在测试和尝试Sora。主要原因是OpenAI担心虚假但真实的视频可能会被滥用。正因如此,它需要构建出更强的安全性,然后才能向公众开放,但OpenAI高管表示,此举仍然非常谨慎。

作为创建文本转图像模型DALL-E的科学家AdityaRamesh,目前对Sora的征集除了安全测试人员之外,还邀请了一批视频制作者和艺术家亲自测试Sora模型以获得关于如何使用它的见解。Sora为创意专业人士提供尽可能有用的反馈。此外,我们还向大家展示了即将到来的人工智能前景,并预览了这些模型的能力。

此外,为了构建Sora,OpenAI的研发团队采用了DALL-E3技术,该技术是OpenAI的旗舰技术之一,也是文本生成图像模型的最新版本。与大多数文本生成图像模型一样,DALL-E3使用所谓的扩散模型技术,该技术经过训练可将随机像素转换为图像。

Sora采用DALL-E3技术并将其应用于生成视频而不是静态图像。但研究人员还在Sora的开发过程中融入了另一种技术。

与DALL-E或大多数其他生成视频模型不同,Sora将其扩散模型与称为

Transformer的神经网络技术架构相结合。

经核实,Transformer属于谷歌在2017年论文《Attention Is All You Need》中提出的技术架构,用于各种NLP任务。现在也是谷歌云推荐的TPU参考型号。Transformer基于其架构推出了语言模型,随后相继出现了Bert、T5、ChatGPT和LLaMa等,它们都将Transformer的技术融入到各自的大型模型中。

Transformers擅长处理长序列的数据,比如文字。就此,也使得Transformers成为OpenAI GPT-4和Google DeepMind的Gemini等大型语言模型中的特殊技术元素。

但是,需要指出的是,视频不是由文字组成。相反,研究人员必须找到一种方法将视频可以切成“块”。最终找出的方法是在空间和时间上对视频进行切“块”。这就如你有一堆视频帧,然后从中剪下一些小立方块。

Sora内部采用的Transformers技术可以处理这些视频数据块,其方式与大语言模型采用内部Transformers技术处理文本块中的单词的方式大致相同。

为此,使得OpenAI可以比其他文本生成视频模型在更多的视频类型上训练Sora,这些视频在分辨率、持续时间、宽高比和方向等方面都有所不同,必然有助于模型Sora的开发创新。

当然,以后Sora一旦开放给公众,如何防止滥用文本生成视频模式将是OpenAI下一步必须做的工作,并且工作量很大,这也是关系Sora在未来能否开放给公众的关键问题。