上周晚些时候,OpenAI宣布了一个名为Sora的新生成人工智能系统,该系统可以根据文本提示生成短视频。虽然Sora尚未向公众开放,但迄今公布的高质量样本产出已引起了兴奋和担忧的反应。
OpenAI发布的样本视频,该公司表示是由Sora直接制作的,未经修改,显示了诸如“两艘海盗船在一杯咖啡中航行时相互战斗的逼真特写视频”和“淘金热时期加州的历史镜头”等提示的输出。
乍一看,通常很难判断它们是由AI生成的,因为视频、纹理、场景动态、摄像机运动的质量很高,而且一致性很好。
OpenAI首席执行官萨姆·奥特曼还在X(以前的Twitter)上发布了一些视频,这些视频是根据用户建议的提示生成的,以展示Sora的能力。
Sora将文本和图像生成工具的特点结合在一起,称为“扩散转换器模型”。
变形金刚是谷歌于2017年首次推出的一种神经网络。它们以在大型语言模型(如ChatGPT和Google Gemini)中的使用而闻名。
另一方面,扩散模型是许多AI图像生成器的基础。它们的工作原理是从随机噪声开始,然后迭代到符合输入提示的“干净”图像。
视频可以由一系列这样的图像制作而成。然而,在视频中,帧之间的连贯性和一致性是必不可少的。
Sora使用转换器架构来处理帧之间的关系。虽然变形器最初的设计是为了在表示文本的符号中找到模式,但Sora却使用表示小块空间和时间的符号。
Sora并不是第一个文本到视频的模式。早期的模型包括meta的Emu, Runway的Gen-2, Stability AI的Stable Video Diffusion,以及最近谷歌的Lumiere。
几周前刚刚发布的Lumiere声称,它能制作出比前几代产品更好的视频。但至少在某些方面,索拉似乎比卢米埃尔更强大。
Sora可以生成分辨率高达1920 × 1080像素的视频,并且具有各种宽高比,而Lumiere则限制在512 × 512像素。卢米埃尔的视频大约5秒长,而苍井空的视频长达60秒。
Lumiere不能制作由多个镜头组成的视频,而Sora可以。据报道,与其他模型一样,Sora也能够进行视频编辑任务,例如从图像或其他视频中创建视频,组合不同视频中的元素,以及及时扩展视频。
这两种模型都能产生大致真实的视频,但可能会产生幻觉。卢米埃尔的视频可能更容易被识别为人工智能生成的。苍井空的视频看起来更有活力,元素之间有更多的互动。
然而,在许多示例视频中,仔细检查就会发现明显的不一致。
目前,视频内容要么是通过拍摄真实世界,要么是通过使用特效来制作的,这两种方法都既昂贵又耗时。如果Sora以合理的价格上市,人们可能会开始使用它作为原型软件,以更低的成本将想法可视化。
根据我们对Sora的能力的了解,它甚至可以用来为娱乐、广告和教育等领域的一些应用制作短视频。
OpenAI关于Sora的技术论文题为“作为世界模拟器的视频生成模型”。论文认为,像Sora这样的大版本视频生成器可能是“物理和数字世界的强大模拟器,以及生活在其中的物体、动物和人。”
如果这是正确的,未来的版本可能会在物理、化学甚至社会实验中有科学应用。例如,人们可以测试不同规模的海啸对不同类型的基础设施的影响,以及对附近居民身心健康的影响。
达到这种水平的模拟是极具挑战性的,一些专家表示,像Sora这样的系统根本无法做到这一点。
一个完整的模拟器需要计算宇宙中最详细层次的物理和化学反应。然而,在未来几年内,模拟世界的粗略近似值并制作逼真的人眼视频可能是触手可及的。
风险和道德问题
人们对Sora等工具的主要关注在于它们对社会和道德的影响。在一个已经被虚假信息困扰的世界里,像Sora这样的工具可能会让事情变得更糟。
很容易看出,生成任何场景的逼真视频的能力如何被用来传播令人信服的假新闻或对真实镜头产生怀疑。它可能危及公共卫生措施,被用来影响选举,甚至可能给司法系统带来虚假证据的负担。
视频生成器还可以通过深度伪造——尤其是色情内容——对目标个人进行直接威胁。这些可能对受影响的个人及其家庭的生活产生可怕的影响。
除了这些问题,还有版权和知识产权的问题。生成式人工智能工具需要大量的训练数据,而OpenAI并没有透露Sora的训练数据来自哪里。
大型语言模型和图像生成器也因此受到批评。在美国,一群著名作家起诉OpenAI可能滥用他们的材料。该案件辩称,大型语言模型和使用它们的公司正在窃取作者的作品,以创造新的内容。
在最近的记忆中,这并不是技术第一次走在法律的前面。例如,在过去几年里,社交媒体平台在审核内容方面的义务问题引发了激烈的辩论,其中大部分是围绕美国法典第230条展开的。
虽然这些担忧是真实存在的,但根据过去的经验,我们不会指望它们阻止视频生成技术的发展。OpenAI表示,在向公众开放Sora之前,它“采取了几项重要的安全措施”,包括与“错误信息、仇恨内容和偏见”方面的专家合作,以及“构建帮助检测误导性内容的工具”。
公司提供
nversation
本文转载自The Co在知识共享许可下的对话。阅读原文。
引用Sora是什么?一种新的生成式人工智能工具可以改变视频制作并放大虚假信息风险(2024年2月20日)
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。
有话要说...