智东西
作者 李水青
编辑 心缘
北京时间10月1日凌晨,OpenAI正式发布新一代视频与音频生成模型Sora 2,并同步推出名为“Sora”的AI社交应用。这款被称作“视频领域GPT-3.5时刻”的模型,凭借更真实的物理模拟与交互功能引发全球科技圈关注,甚至CEO萨姆·阿尔特曼的虚拟形象也被网友玩出花。
据OpenAI介绍,Sora 2在物理引擎、可控性和多模态交互方面实现重大突破。相比前代模型,新版本能更精准模拟浮力、重力等物理现象,支持同步生成对话与音效,并允许用户通过自然语言指令控制复杂场景生成。
官方公布的演示视频显示,Sora 2可完成多项高难度任务:
演示案例:提示词“花样滑冰运动员头顶一只猫表演三周半跳”生成效果
作为配套社交应用,Sora允许用户上传自制视频并通过“客串”功能邀请好友参与创作。该应用目前以邀请制形式在美国和加拿大上线,iOS用户可免费体验基础功能,ChatGPT Pro会员则能解锁更高质量的Sora 2 Pro模型。
图注:OpenAI推出的社交应用Sora界面
OpenAI将Sora 2的进化类比为视频生成领域的“GPT-3.5时刻”。前代模型常出现物体变形或违背物理规律的现象,例如篮球未命中时会自动飞入篮筐。而Sora 2能真实呈现篮板反弹、运动员失误等细节,甚至能模拟人物因失误产生的尴尬表情。
在可控性方面,新模型可执行跨镜头的复杂指令,并精准保留场景状态。其生成的维京人战斗场景、登山探险者呼救等视频,在写实风格与电影质感间自由切换的能力令人惊叹。
演示案例:提示词“维京人参战——北海发射(10.0秒,冬季日光/中世纪早期)”生成效果
多模态生成能力方面,Sora 2可同步创建环境音、角色语音和特效音。例如在登山者雪地呼救的场景中,系统自动生成风声、喘息声和喊叫声的立体声效。
新推出的Sora应用被定位为“AI版抖音”,其核心创新在于“客串”功能。用户录制简短音视频后,系统能以高保真度将其融入任意生成场景。OpenAI内部测试显示,该功能已成为员工结识新同事的社交利器。
应用设计遵循三大原则:
在青少年保护方面,应用通过ChatGPT集成家长控制功能,可限制滚动时长、关闭个性化推荐和管理私信。用户对肖像权拥有完全控制权,可随时撤销他人使用自己虚拟形象的权限。
自2024年2月首代Sora发布以来,视频生成技术已发生质变。Sora 2在物理真实性、交互可控性和多模态生成方面的突破,可能重塑内容创作产业链。OpenAI计划后续通过API开放模型能力,同时保持Sora 1 Turbo的可用性。
尽管技术进步显著,但社会争议随之而来。社交平台X上已有用户担忧:“当AI生成内容与真实难以区分时,我们将进入危险时代。”对此,OpenAI承认模型仍存在缺陷,但强调扩大视频数据训练是通向“世界模拟器”的关键路径。
网友热议:X平台用户对Sora 2生成内容的讨论
目前,获得邀请码的用户已在Sora官网展开创作竞赛,阿尔特曼的虚拟形象被多次“客串”进各类搞笑场景。这场由AI引发的创意狂欢,正预示着视频内容生产与社交方式的深刻变革。