具身智能(Embodied AI)作为通往通用人工智能(AGI)的关键路径,近年来备受关注。从最初的基础动作演示到如今完成连续翻跟斗、跳舞、打拳击甚至拖动汽车等复杂任务,其发展速度远超预期。然而,行业是否已迎来爆发前夜?11月20日,智源研究院院长王仲远在接受媒体采访时明确表示,当前具身智能仍面临两大核心痛点:高质量数据匮乏与商业化伪需求风险,距离真正的“ChatGPT时刻”尚有距离,未来两三年内机器人不会大规模进入家庭场景。
人工智能的每一次重大突破均由数据、算力与模型规模共同驱动,具身智能亦不例外。王仲远强调:“数据质量直接决定模型能力的上限,但行业目前缺乏海量真机采集数据。”他指出,即便拥有数万台机器人昼夜不停地采集动作、触觉等数据,在现阶段仍难以称为“海量”。
“若全球有上亿台机器人每日在真实环境中产生全模态数据,那将是具身智能的‘ChatGPT时刻’。但这一天还非常遥远。”王仲远以仿真数据为例,称几十万小时的仿真数据远未达到引发智能涌现的量级,甚至无法称之为“海量”。
为解决数据难题,王仲远提出以视频数据为主数据源的路径。他解释,视频天然包含时间、空间、因果、意图、图像、文本等多维度信息,甚至可拓展至声音与3D数据,是现阶段唯一可规模化获取的数据类型。通过学习海量互联网视频,模型可建立对物理世界的基础认知,无需为特定机器人本体定制训练,从而具备通用物理常识。
“行业共识是数据至关重要,但更需关注数据能否形成‘飞轮’。”王仲远强调,数据必须服务于模型泛化能力与商业场景落地,而非单纯堆砌规模。他提出两大标准:一是数据需训练出具备泛化能力的模型;二是模型必须支持有真实商业价值的场景。
尽管具身智能技术加速迭代,但商业化落地已迫在眉睫。2025年被部分企业视为“人形机器人量产元年”,甚至宣称出货量已突破万台。王仲远肯定了这一趋势的积极意义,认为万台出货量是硬件打磨的重要开端,但同时指出:当前硬件稳定性仍是商业化最大制约因素。
他分享了一个真实案例:实验室中购买的10台某款机器人,在一两个月内损坏5台;许多机械臂长时间运行后需过热保护,甚至需架设电风扇降温,仿佛需要“保姆”照顾。“这意味着多数硬件尚未达到可用阶段。”王仲远表示,量产需通过规模化过程解决硬件时长、稳定性与安全性问题,因此鼓励更多企业推进量产以推动技术成熟。
然而,他同时提醒行业警惕伪需求驱动的量产泡沫。“若量产仅由政策补贴或投资热度催生,而非真实商业需求,一旦落地效果不及预期,采购方将暂停购买,行业可能陷入低谷。”王仲远强调,硬件需先达到“可用”再追求“好用”,量产必须由真实需求驱动,这是产业成熟的唯一路径。
基于对硬件现状与市场逻辑的判断,王仲远给出明确预期:未来两三年内,机器人不会大规模进入家庭场景。他解释,家庭场景的复杂度、非结构化特征及对成本的高度敏感,使其成为最难攻克的高地。人形机器人进入家庭可能需要5至10年技术沉淀,而工业场景中的专用机器人或具备泛化能力的特种机器人将更快落地。
王仲远总结称,数据匮乏与商业化落地难题已形成互为掣肘的局面。“若机器人数量增长带来海量真实交互数据,企业可利用这些数据训练通用具身基础模型,从而催生具备强大泛化能力的产品。”他表示,尽管当前挑战重重,但从更长周期看,对具身智能的未来发展仍持乐观态度。