【说明】OpenAI 的 Sora 是什麽?原理、限制、价钱,如何申请使用

,LogoTechritual 香港科技电脑资讯网站,,LogoTechritual 香港科技电脑资讯网站,,【说明】OpenAI 的 Sora 是什麽?原理、限制、价钱,如何申请使用,29/02/2024,十斗 十斗,1862,,

ChatGPT 的开发者 OpenAI 现已推出了 Sora,这是一个将文本提示转换为视频的人工智能引擎。可以将其视为 Dall-E(也是由 OpenAI 开发)的升级版,不再仅限於静态图像,而是应用於电影制作。

OpenAI Sora 的发布日期和价格

2024 年 2 月,OpenAI Sora 开放给「红队成员」使用,这些人的工作是测试产品的安全性和稳定性。OpenAI 现已邀请了一些视觉艺术家、设计师和电影制片人测试视频生成功能并提供反馈。

OpenAI 表示:「我们早期分享我们的研究进展,与 OpenAI 以外的人合作并获得他们的反馈,同时让公众了解未来可能的 AI 功能。」

换句话说,我们普通人暂时无法使用它。目前还没有任何关於 Sora 何时对广大公众开放,或者我们需要支付多少费用来使用它的迹象。

根据 ChatGPT 的情况,我们可以大致猜测时间表。在 ChatGPT 於 2022 年 11 月向公众发布之前,该 AI 聊天机器人在同一年早些时候有一个名为 InstructGPT 的前身。此外,OpenAI 的 DevDay 通常在每年 11 月举行。

因此,Sora 可能会遵循类似的模式,在 2024 年的同一时间向公众发布。但目前这只是推测,我们将在获得更清晰的 Sora 发布日期指示後立即更新本页面。

至於价格,我们同样没有任何有关 Sora 可能的价格提示。作为参考,ChatGPT Plus 目前每月价格为 20 美元(约 16 英镑/30 澳元),可以获得最新的大型语言模型(LLM)和 Dall-E。

但与使用 Dall-E 生成单张图像相比,Sora 需要更多的计算资源,而且过程也需要更长的时间。因此,目前还不清楚这篇研究论文能否转化为一个价格合理的消费产品。

OpenAI Sora 是什麽?

您可能已经熟悉生成式人工智能模型,例如 Google Gemini(用於文本)和 Dall-E(用於图像),它们可以根据大量的训练数据生成新的内容。例如,如果您要求 ChatGPT 为您写一首诗,您得到的回应将基於 AI 已经吸收和分析的大量诗歌。

OpenAI Sora 是一个类似的概念,但用於视频片段。您提供一个文本提示,例如「夜晚城市街道上的女子」或「汽车穿越森林」,然後您会得到一个视频。与 AI 图像模型一样,当您描述片段中应该包含的内容以及您想要看到的影片风格时,您可以非常具体。

了解这一过程的更多细节,可以查看 OpenAI CEO Sam Altman 在 Sora 公开後不久发布的一些示例视频。Altman 根据社交媒体上提出的提示返回了一些基於文本的视频,例如「一个戴着尖顶帽子和带有白色星星的蓝色长袍的巫师,从手中发出闪电的咒语,另一只手拿着一本古老的书」。

OpenAI Sora 是如何运作的?

从简化的角度来看,Sora 背後的技术与您在网络上搜索狗或猫的图片的技术相同。如果向 AI 展示足够多的狗或猫的照片,它将能够在新的图像中识别出相同的模式;同样地,如果您将 AI 训练成从数百万个日落或瀑布的视频中生成视频,它也能够生成自己的视频。

当然,在此背後还有很多复杂的内容,OpenAI 提供了有关其 AI 模型如何工作的深入解析。它通过分析视频片段来了解它所看到的内容,然後在需要时学习如何生成自己的版本。因此,如果要求 Sora 生成一个鱼缸的片段,它将根据它所看到的所有鱼缸视频生成一个近似的片段。它利用所谓的视觉块,这些是帮助 AI 理解应该放在哪里以及视频中不同元素如何互动和进展的较小的构建块。

Sora 基於扩散模型,AI 从「嘈杂」的回应开始,然後通过一系列的反馈循环和预测计算逐渐达到「清晰」的输出。您可以在上面的帧中看到这一过程,一个播放在雪地中的狗的视频从无意义的斑点变成了看起来实际的东西。

与其他生成式人工智能模型一样,Sora 使用了 Transformer 技术(ChatGPT 中的最後一个 T 代表 Transformer)。Transformer 使用各种复杂的数据分析技术来处理大量数据,它们可以理解被分析内容中最重要和最不重要的部分,并找出这些数据块之间的上下文和关系。

我们目前不完全了解 OpenAI 从哪里获取了训练数据,它没有说明使用了哪些视频库来支持 Sora,但我们知道它与 Shutterstock 等内容数据库有合作关系。在某些情况下,您可以看到训练数据与 Sora 输出之间的相似之处。

您可以用 OpenAI Sora 做什麽?

目前,Sora 能够根据文本提示生成长达一分钟的高清视频,并且不附带任何声音。如果您想看一些可能性的例子,我们已经整理了一个包含 11 个令人惊叹的 Sora 短片的清单供您参考,其中包括蓬松的像皮克斯风格的动画角色和戴编织帽的宇航员。

OpenAI 表示:「Sora 可以生成长达一分钟的视频,同时保持视觉质量和对用户提示的遵从。」但这还不是全部。它还可以从静态图像生成视频,填补现有视频中缺失的帧,无缝地将多个视频拼接在一起。它还可以生成静态图像,或者根据提供的片段生成无尽循环。

它甚至可以生成像 Minecraft 这样的视频游戏模拟器,同样基於大量的训练数据,教导它 Minecraft 这样的游戏应该是什麽样子。我们已经看到过一个演示,其中 Sora 能够在类似 Minecraft 的环境中控制一个玩家,同时准确地渲染周围的细节。

OpenAI 承认 Sora 目前存在一些限制。物理效果不总是合乎逻辑,人物可能会消失、变形或与其他物体融合。Sora 不是在对场景中的个别演员和道具进行建模,而是对像素应该在帧与帧之间的位置进行大量计算。

在 Sora 的视频中,人物可能以违反物理定律的方式移动,或者细节(例如咬一口饼乾)可能不会从一帧到下一帧被记住。OpenAI 意识到了这些问题并正在努力解决,您可以在 OpenAI Sora 网站上查看一些示例,以了解我们的意思。

尽管存在这些问题,但在未来,OpenAI 希望 Sora 能够演变成一个现实的物理和数字世界模拟器。未来几年,Sora 技术可以用於生成虚拟的想像世界供我们探索,或者让我们完全探索在人工智能中复制的真实场所。

您如何使用 OpenAI Sora?

目前,您无法在没有邀请的情况下使用 Sora:OpenAI 似乎正在选择个别的创作者和测试人员,以帮助使其视频生成的 AI 模型准备好进行全面公开发布。这个预览期望持续多久,无论是几个月还是几年,都还不清楚,但在 AI 项目方面,OpenAI 以前已经显示出尽可能快速行动的意愿。

基於 OpenAI 公开的现有技术(Dall-E 和 ChatGPT),Sora 在正式推出时很可能作为一个 Web 应用程序提供。自从 ChatGPT 推出以来,它变得更加智能并添加了新功能,包括自定义机器人,当 Sora 正式推出时,它可能会遵循相同的路径。

在此之前,OpenAI 表示希望设置一些安全防护措施:您将无法生成显示极端暴力、性内容、仇恨图像或名人肖像的视频。还计划通过在 Sora 视频中包含元数据来对抗错误信息,这些元数据表明它们是由 AI 生成的

,LogoTechritual 香港River

Leave a Reply

Your email address will not be published. Required fields are marked *