OpenAI 推出 Sora用于视频生成的新 AI 模型
在谷歌发布有关将文本转换为视频的演示之后,以发展、丑闻和领导力而闻名的 OpenAI 公司于周四推出了名为 Sora 的类似模型。这一消息在全球范围内引起了巨大轰动,不到一天的时间人们的意见就出现了分歧。
索拉概述
在ChatGPT的发展和导致重大丑闻的内部争议中,OpenAI团队似乎已经实现了一个新的里程碑。
虽然围绕 Sam Altman 最近对 ChatGPT-5 的评论的讨论仍然新鲜,但 OpenAI 推出了一个名为 Sora 的人工智能模型,用于将文本转换为视频,这引起了全球社区的关注,类似于谷歌最近的声明。
与谷歌的 Lumiere 一样,Sora 的可用性将根据公告受到限制。正如其介绍中所提到的,Sora 最突出的功能似乎是它能够制作长达一分钟的视频。
OpenAI 采取的举措被认为极大有助于该公司在谷歌和微软等竞争对手中脱颖而出,该行业预计到 2032 年将达到 1.3 万亿美元。
在这种背景下,OpenAI 似乎通过有效管理其强大且可扩展的人工智能技术来吸引消费者对公司的兴趣,而不仅仅是 ChatGPT。
在 ChatGPT 和 Dall-E 引起轰动后,OpenAI 披露了 Sora 的测试条件。该公司旨在从不同角度测试 Sora,针对错误信息、仇恨内容和偏见方面的专家,努力在公开发布之前发现任何负面影响。
该公司还计划收集目前活跃在职业生涯中的艺术家、设计师和电影制作人的反馈,并似乎准备在 Sora 的开发中采取新的步骤。
这些多样化的测试预计将有助于解决与深度伪造相关的问题,随着人工智能创建图像和视频的使用,这些问题越来越多地出现。
索拉的优点
该公司强调的最重要的功能之一是 Sora 能够解释和可视化最多 135 个单词的摘要。
在 OpenAI 周四发布的股票中,提供了几个例子,该公司负责人 Sam Altman 将问题推向了另一个层面,要求用户创建文本,然后将其转换为视频。这表明了团队对应用程序的信心。
Dall-E 和 ChatGPT 对 OpenAI 的 Sora 的影响也在讨论中。 Dall-E 于 9 月份出现,它能够将文本有效地转换为视觉效果。
Sora 的另一个值得注意的方面是它使用了 Dall-E 3 的摘要技术,OpenAI 提到该技术可以“为视觉训练数据生成高度描述性的标题”。
OpenAI的另一则声明如下:
Sora 可以创建具有多个角色、特定类型的运动和准确的背景细节的复杂场景。该模型不仅了解用户命令提示符的要求,还了解这些东西在物理世界中的存在方式。
在此过程中,OpenAI和奥特曼分享的视频的真实感引起了用户的惊叹。还宣布 Sora 可以从静止图像创建视频,并通过填充缺失的帧来扩展现有视频。
声明继续说道:
Sora 为能够理解和模拟现实世界的模型奠定了基础;我们相信这种能力将成为实现通用人工智能的一个重要里程碑。
Sora 的潜在弱点
OpenAI 并不回避讨论该项目当前的弱点。该公司收到反馈称,《Sora》当前版本在描绘复杂场景的发展和建立因果关系方面存在困难。
声明中给出的例子如下:
例如,一个人可能咬了一口饼干,但之后饼干可能不会显示出咬痕。它可能仍然难以理解左边的内容。空也混淆了左右!
OpenAI 提到的另一个问题是 Sora 的发布日期。该公司没有透露该应用程序何时可用,并将其与采取“几个重要的安全措施”的必要性联系起来。声明如下:
尽管进行了全面的研究和测试,我们仍无法预测人们使用我们的技术的所有有益方式或他们可能滥用该技术的所有方式。因此,我们相信,随着时间的推移,从现实世界的使用中学习是创建和启动越来越安全的人工智能系统的关键组成部分。