11月5日,在第八届虹桥国际经济论坛“人形机器人创新发展合作”分论坛上,宇树科技创始人兼首席执行官王兴兴发表了主题演讲,就具身智能的发展趋势与挑战发表了独到见解。
王兴兴指出,今年机器人产业呈现出前所未有的火热态势。然而,他也坦言,机器人大模型的进展并未如预期般迅速,尚未达到关键的临界值。尽管具身智能大模型和端到端技术的进步总体上非常快,但仍比他最初设想的稍慢一些。
对于具身智能发展的临界点,即所谓的“ChatGPT时刻”,王兴兴给出了明确的定义:在陌生的场景中,当机器人接收到语音或文字指令后,能够完成约80%的任务时,便标志着具身智能技术取得了突破性进展,达到了“ChatGPT时刻”的标准。
那么,为了早日实现这一“ChatGPT时刻”,行业应该更侧重于模型的研究,还是数据的收集呢?王兴兴认为,目前在模型结构上,业界已经进行了诸多尝试,但发现模型的泛化能力仍有待提升,因此需要进行更多的创新。同时,他也强调了收集更大规模、更高质量数据的重要性。不过,他也指出,目前对数据的采集以及对数据质量的评判仍然面临诸多困难。
王兴兴进一步提出,模型和数据的发展需要相辅相成,而不是单纯地追求大量数据的采集,或者一味地将模型做大。只有两者协同发展,才能推动具身智能技术不断向前。
在谈到具身智能的主流模型时,王兴兴介绍了VLA(视频语言动作)+RL(强化学习)模型和基于视频生成的世界模型。他表示,VLA模型可以通过仿真环境或真实场景进行训练,但其泛化能力相对有限。因此,他更倾向于基于视频生成的世界模型。
然而,王兴兴也坦诚,基于视频生成的世界模型面临着巨大的挑战。由于该模型对算力的需求极高,需要大量的算力卡支持,因此中小型人形机器人公司往往难以承担。相反,一些大型AI公司和互联网公司在视频模型资源方面更为丰富,因此更有可能成功开发出该模型。