扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

具身智能热潮下,智源研究院如何构建技术生态体系?

时间:2025-11-21 10:16:48 来源:界面新闻 作者:界面新闻

记者 | 伍洋宇 编辑 | 文姝琪

当人工智能领域的焦点从大语言模型转向具身智能,行业正面临新的技术挑战与生态重构。11月20日,智源研究院在开放日活动中系统披露了其技术布局与生态战略,试图为具身智能的规模化落地提供系统性解决方案。

技术瓶颈:从硬件成熟到模型通用的断层

当前具身智能仍处于“可演示但难规模化”的阶段。尽管机器人硬件技术快速迭代,但模型层面的三大瓶颈显著制约发展:模型通用性不足导致不同本体间接口割裂,动作规划与控制难以迁移;部署成本高企;仿真与真实场景的适配性不足。智源研究院指出,这种结构性矛盾要求行业从底层技术架构入手,构建统一的技术生态。

自底向上:智源的通用技术体系

针对上述问题,智源研究院推出以“具身大脑”为核心的通用技术体系,整合数据采集、标准化工具链、模型基座、仿真与评测四大模块,形成开源开放的统一架构。目前,该生态已吸引超过30家合作伙伴,涵盖机器人本体制造、传感器、仿真平台等多个领域,且规模持续扩大。

在模型层面,智源发布新一代RoboBrain 2.0 Pro,通过引入价值判断与三维空间追踪能力,使机器人能在复杂场景中实现更稳健的动作推理。基于此构建的RoboBrain-X0 Pro支持零样本跨本体迁移与长程多步骤操作,而面向灵巧手的RoboBrain-Dex通过大规模人类示范预训练,将灵巧操作的数据需求降低60%。在控制层面,Emu-RobotVerse仿真平台与专为人形机器人设计的BAAI Thor全身控制框架,为强交互任务提供底层稳定性支撑。此外,全双工语音大模型RoboBrain-Audio(响应延迟约80毫秒)与聚焦长期记忆的RoboBrain-Memory,进一步完善了人机交互能力。


图源:智源研究院

技术路线之争:分层架构与通用基座的平衡

在圆桌讨论中,端到端VLA、分层式模型与世界模型三条技术路径引发激烈辩论。行业共识认为,短期内分层架构更易工程落地,而通用基座模型需长期投入,其前提是建立统一的场景表示、高质量数据闭环与一致评测体系。针对“硬件是否拖累模型”的争议,专家指出,模型规划与硬件执行已进入互相重塑阶段,尤其在力控、人形结构与安全边界等领域,需双方共同定义标准。

数据困境:视频模态的突破与局限

数据问题成为具身智能发展的核心矛盾。智源研究院院长王仲远在接受采访时坦言,机器人真机数据的增长速度远低于语言模型,即便未来部署万台机器人,仍难以支撑通用模型所需的规模。“几十万小时的数据尚不构成海量,行业远未到达‘ChatGPT时刻’。”

在此背景下,智源选择以视频作为训练主输入。王仲远解释,视频不仅可规模化采集,还融合了时空因果、语义、动作、声音等多维度信息,是最接近人类学习路径的数据来源。例如,人类通过观看视频即可学会拆糖果或拧瓶盖,这种机制同样适用于机器人训练。具体而言,模型通过少量真实操作记录获取因果反馈,再通过强化学习修正行为策略,形成“视频学习+真实纠偏”的混合训练模式。

针对视频模态在触觉与力控上的不足,王仲远承认行业整体缺乏力反馈数据,但强调此类数据对未来发展的关键性。智源已启动相关数据采集计划,以补全模型感知能力。

资本狂热:共识驱动下的产业聚集

面对近期具身智能领域的融资潮,王仲远认为这是行业共识形成的结果。资本、政策与产业圈普遍相信,具身智能将成为继大模型后的下一条长周期技术曲线。由于研发需持续投入算力、硬件与场景验证,高额融资几乎成为入场门槛。“这能加速产业聚集,但商业化路径仍需时间验证。”

他同时提醒,资本涌入伴随焦虑:当前技术路线尚未收敛,部分投资人可能被情绪驱动。行业未来将经历周期波动,但技术演进会沿螺旋上升轨迹持续前行。

创业生态:生存比万能更重要

在创业领域,王仲远观察到“快速出现又快速倒下”的现象,其根源在于商业模式模糊与资源分散。他强调,真正的竞争力在于“将一个真实场景打磨到可长期使用”,而非追求“万能具身”。“先活下来,熬过寒冬才能迎来真正的未来。”这是他对创业者的核心建议。

从技术突破到生态构建,从数据困境到资本逻辑,智源研究院的实践揭示了具身智能从实验室走向产业化的关键路径。在行业狂热背后,理性布局与长期主义或将成为决定胜负的核心变量。

猜你喜欢