输入“/”快速插入内容

如何将Sora转化为实际生产力?

2024年4月25日修改
⏰ 剪存时间:2024-03-18 13:04:49 (UTC+8)
✂️ 本文档由 飞书剪存 一键生成
2月16日凌晨(北京时间)正月初七,在没有任何消息和预兆下,Open AI 突然发布了首个文生视频大模型——Sora,借此Sora正式对外曝光,AI视频领域也迎来了前所未有的关注度,并且在极短时间内震惊业界,并持续破圈。
如今虽然距离Sora发布已有1个月的时间,但各方对Sora大模型的讨论仍在持续,主流业界也对Sora基本达成了共识。Sora到底为什么能够震惊业界?是真的遥遥领先,还是在过度神话?以及我们如何将Sora落地应用于实际项目?本篇文章将带你一一了解!
引言:Sora的技术文档里面有这么一段话:“我们的结果表明,扩展视频生成模型是朝着构建通用物理世界模拟器迈进的有希望的模型。它的终极目标并不是“文生视频”的工具,而是一个通用的“物理世界模拟器”,从中不难看出,他们真正想做的是给真实世界建模,而Sora只是验证了这条道路是否可行的方式。但我们暂且将Sora的宏伟蓝图搁置一旁,先聚焦于Sora作为工具本身所展现出的能力优势,以及如何将其有效地融入我们的工作流程中,转化为实际生产力。
这一章分为三个部分——Sora的优势、它目前还存在的缺陷和不足、以及它和目前市场上热门的几个AI视频平台的横向对比及测评,如果你已经对Sora的能力优势有所了解,那么可以直接从第二章节开始阅读。
下面这个案例视频,相信大家已经被刷屏看过很多次了,这是一个很有代表性的例子,展示了Sora有能力生成60秒钟且高清晰度的视频,并且还能够呈现一段完整的内容情节。除此之外Sora还支持输出任意尺寸的视频,还能根据视频尺寸,调整出适合的画面构图。
Sora能在理解指令后生成一个连贯的三维空间,让我们通过视频案例了解下,下面的3个视频文本指令词,除了一个文本指令不同外,其余指令全部一致;通过这种控制变量的实验可以看出,Sora对文本指令有着比较透彻和精准的理解能力,不会混淆文本中细微的差别。
Sora不仅仅是一个文生视频模型,AI视频只是它的起点,Sora的目标是成为一个世界通用大模型——能够通过自主学习世界的规律和常识,模拟并且高保真的还原物理环境中可能发生的事件,我们也用几个视频案例直观看下。
左侧汽车在颠簸的山路上行驶的视频,可以看到汽车的影子和尾气会始终随着汽车主体的运动而运动,完美匹配了“山路颠簸”的实际效果,这一点证明Sora理解了物理运动的规律。右侧一只海盗船在“咖啡海洋”里航行的视频,两个船只随着液体的波动而摆动,完美地呈现了流体物理学原理。
功能1:Sora可以沿时间轴向前或者向后扩展视频。
下面的3个视频都是从生成的视频片段开始向前扩展的。因此,3个视频的开头都与其他视频不同,但所有3个视频都指向相同的结局。
功能2:Sora可以将多段视频融合成一个新的视频。
比如下面的视频案例,如果我们上传一段海滨古城的大远景视频和一段圣诞氛围的特写视频,那么Sora可以自动将这两段毫无关联的视频无缝得融合在一起。
按照官方展示的,只要在系统里上传一张静态图片和一段文本指令,Sora就可以把图片和这段指令很好地演绎出来。