终于识得Sora真面目。
10 日凌晨,OpenAI 直接开放了 Sora 的新版本 ——Sora Turbo,ChatGPT Plus 和 Pro 用户可以直接上手体验。
链接直达:https://sora.com/
相较于今年 2 月 16 日发布的 Sora 预览版,这个新版本速度更快,功能也更全,一口气上线了 Remix、Re-cut、混合、故事板剪辑、风格预设等多项功能。
(查看详情,请移步:刚刚,OpenAI Sora 正式炸裂登场,网页挤爆了!)
Sora 吊了太长时间的胃口,此次一经上线,网站直接被挤崩。
不过,还是有不少博主在社交平台上放出了一手体验。
翻车来得猝不及防。
知名科技博主 @MKBHD从上周就用上了 Sora 最新版。在尝试了各种风格和角色、向它抛出了几十个提示词后,最终得出了以下结论:
搞抽象,或者生成艺术风格镜头,那水平绝对一流,但一遇到写实风格,别的大模型有的毛病,Sora 照样有。
-1-
生成效果很逼真,但文字仍会乱码
Prompt :CBS style of video of news coverage of a recent fog event. 提示词:CBS 对近期大雾事件的新闻报道视频。
众所周知,AI 经常会把文字处理成一些奇怪的「鬼画符」,Sora 生成的这段视频也不例外,其中包含了很多混乱的文字。
不过,Sora在生成视频时能够模拟一些视频编辑技巧,如插入不同镜头、制作滚动条效果,以及模拟新闻风格的视频拍摄,生成的新闻主播看起来也很真实。
-2-
难以理解和模拟现实世界中的物理规律
Sora 并未对视频中的物体产生「理解」,模型仍然容易出现「幻觉」,主要表现为不合逻辑的运动,以及缺乏物理恒常性。
比如,生成的视频中物体会相互穿透,或者无故消失和重现等。
Prompt :A black tech reviewer talking about a smartphone, while sitting at a desk in front of 2 displays. 提示词:一位黑人技术评论员坐在办公桌前,面对两台显示屏谈论一款智能手机。
在这段视频中,黑人小哥的表情、动作还挺逼真流畅,但是细究起来也有不少 bug。
比如,黑人小哥右手拿的手机总是凭空出现或消失,而且他的左手会在不经意间多根手指或少根手指。
同时,Sora 也并未严格遵循文本描述,黑人评论员不是面对两台显示屏,而是背对。显示屏中的图片也都出现了手指畸变的情况。
Prompt :A high resolution drone shot of the Golden Gate Bridge on a clear morning with a the peak of the bridge poking through some thin clouds. 提示词:在一个晴朗的早晨,无人机拍摄到的金门大桥的高清画面,大桥的顶峰从薄薄的云层中探出头来。
视频中,跨海大桥上密密麻麻的小汽车在较大的运动幅度下,纷纷出现模糊、变形、凭空消失、无中生有等 AI 视频中常见的毛病。
Prompt:National Geographic style video of a person befriending a penguin. 提示词:国家地理杂志拍摄的与企鹅交朋友的视频。
Prompt:A side scrolling shot of a rhinoceros walking through a dry field of low grass plans. 提示词:侧滚动拍摄的犀牛在干燥的低矮草地上行走的画面。
Sora 生成的这只犀牛的运动就更加惊悚了,要么一跃而起,要么在空中拐弯,总之,你永远不知道它下一秒会落在哪里。
-3-
图生视频拉胯
在测试图生视频时,该博主发现 Sora 有时根本不知道在特定图片中,物体的方向或速度应该是怎样的。
比如,他上传一张自己腾空接飞盘的图片,并输入 Prompt:He catches the disc before landing.(他在落地前接住了飞盘。)
当人腾空几乎与地面平行时,接下来就应该是在重力的作用下落地,但在 Sora 生成的视频中,男人好像拥有了某种超能力,硬生生往前飞出去好几米。
再如这张和袋鼠的合照,Prompt:The kangaroo jumps over the man.(袋鼠从这个人身上跳过。)
最终生成的效果有种莫名的喜感:
-4-
媲美纪录片的风景镜头
尽管 Sora 在模拟现实世界的物理运动存在一些局限性,但在风景渲染方面表现出色。
它几乎能够生成任何无人机拍摄的标志性景观,或者创造出非常接近于纪录片乃至低成本电影中使用的高质量镜头。
-5-
擅长动画风格
相比于写实风格,Sora等视频生成模型更擅长生成动画。
一方面是因为动画风格不需要严格遵守现实世界的物理规则,这减少了模型需要处理的复杂性。例如,在动画中,物体可以无视重力飞行或者以不符合现实物理的方式变形。
另一方面,动画通常具有风格化的特征,如夸张的表情、色彩和形状,这些特征更容易被 AI 模型捕捉和模仿。
Prompt:Stop-motion claymation footage of Santa punching a snowman. 提示词:圣诞老人打雪人的定格粘土动画片段。
提示词:claymation of a sentient ball of yarn cute character surfing. 提示词:一个有感知能力的毛线球可爱角色的粘土动画冲浪场景。
提示词:They are singing and dancing in the moonlight. 提示词:他们在月光下载歌载舞。
详细测评视频链接: