扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

智源研究院王仲远:具身智能两大痛点解析,距离ChatGPT时刻还有多远?

时间:2025-11-21 04:03:15 来源:每日经济新闻 作者:每日经济新闻

具身智能正被视为通往通用人工智能(AGI)的重要路径,其发展速度令人瞩目。从去年的初步探索到如今能够完成连续翻跟斗、跳舞、打拳击甚至拖动汽车等复杂动作,具身智能似乎正迈向爆发的前夜。然而,行业真的已经准备好迎接这一时刻了吗?

11月20日,智源研究院院长王仲远在接受包括《每日经济新闻》记者在内的媒体采访时,深入剖析了具身智能当前面临的两大核心痛点:高质量数据的极度匮乏,以及商业化落地中伪需求带来的泡沫风险。他明确表示,具身智能距离真正的“ChatGPT时刻”尚有距离,未来两三年内,机器人不会在家庭场景中“满街跑”。

数据困境:高质量数据匮乏成瓶颈

回顾人工智能七十年的发展历程,每一次重要跃迁都离不开数据、算力和模型规模的共同推动。具身智能也不例外,数据,尤其是高质量的数据,直接决定了模型能力的上限。王仲远指出,要让机器人具备像人类一样理解物理世界并进行决策的大脑,现有的数据路径面临巨大挑战。

“具身智能的数据难题在于行业缺乏海量的真机采集数据。”王仲远强调。即便拥有几万台机器人日夜不停地采集数据,在现阶段也难以称之为海量。他设想,如果全球有上亿台机器人每天在真实环境中产生动作、触觉、决策等全模态数据,那将会是具身智能的“ChatGPT时刻”。但显然,这一天还非常遥远。

几十万小时的仿真数据,远未达到引发智能涌现的量级。王仲远认为,以视频作为主数据源是最佳路径。视频数据天然包含时间、空间、因果、意图、图像、文本,甚至可以拓展到声音、3D信息,是少数能够在现阶段做到大规模的数据类型。通过学习海量的互联网视频数据,模型可以建立起对物理世界运行规律的基础认知。

“我们在Emu系列原生多模态大模型的研发中发现,视频数据可以作为一个基座。模型不需要刻意为特定机器人本体训练调优,因为它学到了通用的物理常识。”王仲远解释道。他同时强调,行业不能忽略数据是否真正能形成“飞轮”,数据必须最终回到模型与场景,而不是为了堆数据而堆数据。

对此,王仲远给出了明确的标准:数据必须训练出具备泛化能力的模型;模型必须能支持真正有商业价值的场景。

商业化挑战:警惕伪需求带来的量产泡沫

尽管具身智能的发展势头迅猛,但商业化落地的考验已经迫在眉睫。2025年被不少业内人士视为人形机器人的量产元年,部分企业甚至宣称出货量已过万台。王仲远表示,这无疑是一个好现象,万台的出货量是硬件打磨的重要开端。

然而,面对这一热潮,王仲远也直言不讳地指出,当前的硬件稳定性依然是制约商业化的重要因素。他分享了一个真实的案例:在实验室里,他们购买了10台某款机器人,在一两个月内就坏了5台。许多机械臂在长时间运行后会出现过热保护,甚至需要在一旁架设电风扇降温。

“这就意味着很多硬件还没有到真正可用的阶段。”王仲远强调。量产能够在规模化的过程中不断打磨硬件,解决使用时长、稳定性、安全性等问题。因此,他希望有更多硬件能够实现量产,企业规模能够不断扩大。

与此同时,王仲远也提醒行业需要分辨这种量产是由真实的商业需求驱动,还是仅仅由政策补贴和投资热度催生的伪需求。他认为,如果是由示范项目带来的一次性小需求,可能撑不起持续的量产。一旦落地效果达不到预期,采购方会暂停购买,行业便可能进入低谷。

基于对硬件现状和市场逻辑的判断,王仲远给出了一个明确的预期:未来两三年内,具身智能最大的确定性是“机器人不会进入家庭‘满街跑’”。他认为,家庭场景的复杂度、非结构化特征以及对成本的高度敏感,决定了它是最难攻克的高地。人形机器人要进入家庭,可能需要5到10年的技术沉淀。相比之下,工业场景中的专用机器人,或者具备一定泛化能力的特种机器人,将更快实现落地。

对于具身智能产业而言,数据与商业化落地仿佛已经互为掣肘。王仲远表示:“如果有一天,机器人数量越来越多,产生了海量机器人与真实世界交互的数据,这些数据能够被企业广泛用来训练,也许能催生真正意义上的具备强大泛化能力的通用具身基础模型。”

猜你喜欢