今日,商汤科技旗下日日新团队在空间智能领域取得重大突破,正式发布并开源SenseNova-SI系列空间智能大模型。该系列模型在多项权威空间理解与推理基准测试中表现卓越,不仅大幅领先同量级开源多模态模型,更超越GPT-5、Gemini 2.5 Pro等国际顶尖闭源模型,标志着AI对三维物理世界的理解能力迈入新阶段。
空间智能短板与系统性突破
当前主流大模型在知识储备、文本生成、逻辑推理等领域表现优异,但在空间结构理解与推理方面存在显著短板。这种能力缺陷直接制约了具身智能体(如机器人、自动驾驶系统)与物理世界的交互效率。以具体案例为例:在《最强大脑》图形推理题中,GPT-5可轻松破解非空间类难题,却对儿童级空间问题束手无策——当要求从俯视角度观察三维物体时,GPT-5错误选择了错误选项,而SenseNova-SI-8B则准确给出正确答案。

此类案例暴露出传统大模型在空间认知上的根本性局限。商汤研究团队通过系统性创新,提出针对空间智能的增强训练方案,成功打造出具备真正三维世界理解能力的SenseNova-SI系列模型。
评测表现:多项任务全面超越国际顶尖模型
此次开源的SenseNova-SI系列包含2B和8B两种参数规格的模型。在VSI、MMSI、MindCube、ViewSpatial等权威空间智能基准测试中,SenseNova-SI-8B模型以60.99的平均分创下新纪录:

数据来源:SenseNova-SI开源项目
评测数据显示,该模型在空间测量、空间重构、空间关系、视角转换、空间形变、空间推理六大核心维度上实现质的突破,其性能提升源于训练数据与方法的双重创新。
基于尺度效应的训练范式创新
商汤团队提出的空间能力分类体系,结合多年积累的多样化空间数据,通过系统性扩充训练数据规模,首次在空间智能领域验证了「尺度效应」——即通过高质量、大规模数据训练可显著提升模型的空间认知能力。该训练范式具有通用性,可针对InternVL等不同基模型架构进行增强,使其在六大空间维度上实现能力跃升。
具体技术方案将于近期发布的技术报告中详细披露。从已公布的对比案例可见:在立方体组合俯视图选择任务中,SenseNova-SI-8B正确识别出答案B,而GPT-5选择错误;在摩托车位置判断任务中,该模型准确判断出物体位于右侧,再次超越GPT-5的错误判断。

例题:立方体组合俯视图选择(正确答案B)

例题:摩托车位置判断(正确答案右侧)
推动具身智能与世界模型生态发展
空间智能是构建世界模型、实现具身智能的基础能力。今年7月发布的「悟能」具身智能平台,以商汤「开悟」世界模型为核心,为机器人提供物理世界自主探索能力。此次开源的SenseNova-SI模型与「开悟」模型形成互补,共同解决多模态模型从数字空间向物理世界迁移的关键挑战。
为促进技术生态发展,商汤同步开源空间智能测评平台EASI(项目地址)并发布「英雄榜」,建立统一的评估标准体系。该平台将持续跟踪开源/闭源模型性能进展,为学术界和产业界提供权威基准,推动空间智能技术的协同创新。
SenseNova-SI的推出标志着AI对三维世界的理解能力实现关键突破,为下一代通用人工智能融入物理环境奠定技术基石。随着模型与测评体系的持续优化,空间智能技术将在自动驾驶、机器人导航、增强现实等领域展现更大应用价值。