扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

记者实测Sora2:AI视频生成迈入新阶段,GPT-3.5时刻已至?

时间:2025-10-03 09:02:05 来源:第一财经资讯 作者:第一财经资讯

国庆期间,OpenAI CEO奥尔特曼(Sam Altman)意外成为AI生成视频的“网红”。在这些由AI生成的视频中,他时而坐在东北大炕上吃饭,时而出现在阿里和字节员工的会议室中,甚至化身为街头的外卖骑手。这一切的幕后推手,正是OpenAI在10月1日正式推出的新一代视频生成模型——Sora2,以及与之配套的AI视频社交App“Sora”。目前,用户可通过邀请码免费下载使用,一次生成长达10秒的AI视频,奥尔特曼也因此成为这场全民AI创作盛宴中的“常客”。


第一财经记者亲身体验Sora2后发现,与去年发布的初代Sora相比,Sora2在物理逻辑、画面一致性以及真实感上均实现了显著提升。仅需一张照片和一句提示词,AI便能创作出富有剧情和文案的短片。然而,这是否意味着AI视频已经跨越了“真实”的门槛呢?从测试结果来看,Sora2尚存不足。

至顶科技总编辑、PEC联合发起人高飞指出,Sora2相较于上一代是一个重大的版本更新,在许多场景中已达到了以假乱真的程度。但与其他AI产品相比,Sora2在技术上并未形成代差领先。他更关注的是其产品玩法,认为在打造互联网产品方面,OpenAI暂时领先于其他公司。

OpenAI在官方博客中宣称,Sora2是“迈向GPT-3.5时刻的一步”。然而,AIGC创作领域的知名意见领袖@尾鳍Vicky认为,对于创作者而言,这一时刻或许尚未到来。毕竟,产品仍无法彻底解决一致性和物理问题。但对于大多数普通用户来说,玩AI视频已经变得触手可及且充满乐趣。

实测Sora2:优缺点并存

过去两天里,OpenAI成功地进行了一场产品发布营销。截至发稿时,Sora APP在美区iOS免费应用排行榜上已跃居第三位,仅次于谷歌的Gemini和OpenAI自家的ChatGPT。

由于Sora采用邀请制免费使用,国内闲鱼平台上已出现售卖邀请码的生意,其中单价6.88元的邀请码更受欢迎,已有近50人表示想要购买。


用户在使用Sora2前需准备一个邀请码。注册后,该邀请码可裂变出4个新邀请码供分享给朋友。一旦邀请码被使用,便会自动关注邀请对象,从而逐渐构建起好友网络。由此可见,Sora从一开始就融入了强社交元素。

有人将Sora誉为“AI版抖音”。其应用主页为垂直视频流,用户可上下滑动浏览不同用户发布的视频。但所有内容均由AI生成。在生成视频时,用户可选择上传图片并结合文字提示,或使用“Cameo”(客串)功能,基于自己或朋友的形象进行提示词生成。

Sora2作为Sora APP的技术支撑,OpenAI在博客中表示,Sora2能够完成以往视频生成模型难以实现的任务。它在物理表现上更加精准、逼真,且在可控性方面实现了巨大飞跃。此外,它还配备了同步音频功能。

在获得邀请码后,第一财经记者测试了基于Sora的视频生成效果。与初代相比,确实有了大幅提升。其输出结果已基本能满足C端用户的娱乐需求。尤为亮眼的是,AI在镜头语言上极为丰富,对话充满想象力,且音频输出方面口型与发音保持一致。但目前生成一个10秒的视频仍需等待数分钟,且分辨率有待提高。

以奥尔特曼为主角,记者给出的AI提示词是:@sama在工作敲代码,一只银渐层走过来生气地关掉了电脑主机电源,他们开始吵架。


在这个视频中,Sora精准捕捉了猫爪关电源的画面,并伴随准确的关机音效。同时,也展现了奥尔特曼吵架时生气的表情和姿态。细节和环境均显得非常真实。在发音时,人物的口型也能完美对应。

值得一提的是,Sora还会为角色“加戏”。在提示词中记者仅提到“开始吵架”,但AI视频对话中,猫咪会抱怨“你一下午都没陪我,而且风扇像拖拉机一样”,主角则回复“先开回来,咱俩再谈”。情节补充自然,与场景配合得非常真实。

然而,这一产品也并非完美无缺。例如,录入人脸生成的视频并不完全像本人,有用户反馈是“似像非像”的效果。同时,Sora在事实逻辑上仍存在错误。在一个使用灭火器的场景中,灭火器喷雾的出口并不准确。


中文支持更是问题重重。例如,有用户让奥尔特曼成为外卖员,其外卖服上出现了凭空生造的文字。


@尾鳍Vicky认为,Sora的优点很明显。用户数字人的物理效果和唇型驱动效果很好,且在APP的使用交互上下了一番功夫。例如,从注册开始就让用户在“验证”过程中完成素材内容的录制,且仅需很短的音频和视频就能输出不错的效果。此前,图生、文生视频的路径已经存在很久,但效果和应用都没有Sora这么自然、对用户如此友好。

但另一方面,Sora的缺点也同样突出。@尾鳍Vicky提到,虽然相比初代Sora2在物理理解问题上有所改进,但涉及到多元素的物体交互时,仍会出现手脚和脸模糊等丢失细节、动作不符合物理逻辑等问题。从这个维度上来说,Sora2在模型能力的提升上并未达到可以真正解决技术问题的那一步。

GPT-3.5时刻是否已到来?

在官方博客中,OpenAI将2024年2月的初代Sora比作“视频的GPT-1时刻”,而将Sora2定义为“可能直接跳到了GPT-3.5的时刻”。

博客中解释认为,之前的视频模型会变形物体和现实,但Sora2可以做一些对于之前的视频生成模型来说非常困难的事情,如奥林匹克体操动作、在桨板上的后空翻等,并能精确地模拟浮力和刚性的动态。模型在可控性方面也有了很大的飞跃,能够创建复杂的背景音、语音和具有高度真实感的声音效果。

但问题是,AI视频的“GPT-3.5时刻”真的来了吗?@尾鳍Vicky认为,至少对于创作者来说还没有。因为Sora2仍无法彻底解决一致性和物理问题。但对普通用户来说,AI视频的门槛已大幅降低,玩AI视频真的变成了一件很简单且很有趣的事。

高飞认为,Sora2与其他AI产品相比,在技术上并未形成代差领先。例如,谷歌有Veo3、Nano banana以及世界模型Genie3,在多模态方面相当强悍。而国内的可灵、即梦也能与之一战。

今年5月,Veo3推出时也曾在社交网络上火出圈。一些人物视频极具真实感,被认为是AI视频领域领先的水准。但彼时行业人士仍然认为,现阶段的AI视频对实际生产的帮助仍然不算太大,并未来到真正的GPT时刻。

相较于模型技术,高飞认为Sora2更值得关注的是其产品玩法。OpenAI将它打造成了一个更类似于短视频的消费者App,其主要机制是要求用户上传自己的脸部数据和声音信息做AI二创。“这样一方面很容易拿到了最为宝贵的消费者面部数据,其次用户基于自己的人脸创造的视频,配合邀请码机制,也很容易吸引亲朋好友链式传播。”

因此,高飞的观察是,“OpenAI可能在模型不一定是最强,但是在打造互联网产品方面,领先于其他所有公司。”这次Sora2不追求画质和时长,也是典型的互联网打法,先完成再完美,后续再迭代。

@尾鳍Vicky也认为,Sora2这次的发布更侧重于APP的交互设计,并不仅是模型本身的更新。“Sora2目前的定位,似乎并不是以专业的AI视频创作为导向,而是更专注于如何用AI视频来完成用户社交,做寻找应用场景的新尝试。”

从海外市场来看,对于Sora2和Sora应用的发布则褒贬不一。有用户认为技术惊艳、创造力会大爆发,也有人认为这些无聊的视频毫无意义,与宏大的AGI愿景、人类福祉相悖。

有用户发帖讽刺称,2周前,奥尔特曼说“我们需要7万亿美元和10吉瓦来治愈癌症”,他现在表示“我们正在推出以个性化广告形式营销的AI垃圾视频”。

奥尔特曼转发了这一帖子,并回复称需要资金来继续研究AI,并且几乎所有的研究精力仍然集中在通用人工智能上。“向人们展示很酷的新技术或者产品,让他们开心,并借此来赚取一些钱,这也是一件好事。”奥尔特曼称,当谈到公司的最佳发展轨迹时,现实情况是微妙的。

“重要的是让人类从这些模型的开发中受益。我们认为Sora会给世界带来很多欢乐、创造力和联系。”OpenAI在博客中写道。未来,随着视频模型持续进化,通用世界模拟器与机器人Agent将重塑社会。无论如何,Sora2都朝这一目标迈出了重要的一步。