OpenAI 王炸 Sora 文转视频正式上线,新功能发布

6 min


就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

Sora 界面大揭晓,拥有 6 大神级功能,不用学剪辑了?

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

实测 Sora 暴露最大短板,但这些场景堪比专业级

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora 能成为 OpenAI 的下一只「金母鸡」吗?

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

  • 未经他人许可使用他人肖像,并禁止描绘真实未成年人;
  • 创建非法内容或侵犯知识产权的内容;
  • 禁止生成有害内容,例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容,或旨在传播暴力、仇恨或使他人痛苦的内容;
  • 创建并传播用于欺诈、诈骗或误导他人的内容。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。


Like it? Share with your friends!

0
Anonymous

Choose A Format
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Video
Youtube and Vimeo Embeds