具身智能作为通往通用人工智能(AGI)的关键技术路径,正引发全球科技界的广泛关注。从早期动作笨拙到如今完成连续翻跟斗、拖动汽车等复杂任务,其发展速度令人惊叹。然而,在这场技术狂欢背后,行业是否已迎来真正的爆发前夜?11月20日,智源研究院院长王仲远在接受媒体采访时直言:当前具身智能面临两大核心挑战——高质量数据稀缺与商业化伪需求风险,距离“ChatGPT时刻”仍有显著差距,未来两三年内家庭机器人普及尚不现实。
“数据质量决定模型能力的天花板。”王仲远强调,具身智能的突破同样依赖数据、算力与模型规模的协同演进。但当前行业面临的核心矛盾在于:缺乏海量真机采集的全模态数据。即便部署数万台机器人昼夜运行,其采集的动作、触觉等数据仍难以支撑模型泛化需求。
他以“ChatGPT时刻”为标杆指出:当全球上亿台机器人每日产生真实环境数据时,具身智能将迎来质变。而现阶段,几十万小时的仿真数据远未达到智能涌现的临界点。“视频数据是当前最可行的规模化解决方案。”王仲远解释称,视频天然包含时间、空间、因果关系等多元信息,通过学习互联网海量视频,模型可构建对物理世界的基础认知。智源Emu系列模型的实践表明,视频基座训练的模型无需针对特定机器人调优,即可掌握通用物理常识。
但他同时警示:数据必须形成“飞轮效应”——最终服务于模型泛化与商业场景落地。“单纯堆砌数据无意义,必须训练出具备跨场景能力的模型,并支撑有实际价值的业务。”
尽管2025年被视为人形机器人量产元年,部分企业宣称出货量破万,但王仲远泼出一盆冷水:当前硬件稳定性仍是商业化最大瓶颈。他以实验室案例说明:某款机器人10台中有5台在一两个月内损坏,机械臂长时间运行后需电风扇降温,“仿佛需要‘保姆’照顾”。
“量产是打磨硬件的必经之路,但必须区分真实需求与政策补贴驱动的伪需求。”王仲远直言,若量产仅由示范项目或投资热潮推动,一旦落地效果不达预期,行业将陷入低谷。他预测:未来两三年内,机器人不会在家庭场景“满街跑”。家庭环境的复杂性、非结构化特征及成本敏感性,决定了其是最难攻克的高地,可能需要5-10年技术沉淀。相比之下,工业专用机器人或特种机器人将率先落地。
王仲远总结称,数据积累与商业化落地已形成双向制约:缺乏真实场景数据阻碍模型泛化,而商业化不足又限制数据规模。他描绘了一幅理想图景:当机器人数量指数级增长,产生海量真实交互数据,企业得以训练出具备强大泛化能力的通用具身模型,届时行业将迎来真正突破。
“从更长周期看,我对具身智能充满信心。”王仲远强调,产业成熟需遵循“硬件可用→好用→量产由真实需求驱动”的路径,这或许是穿越当前迷雾的唯一指南。