美东时间19日周三,Meta正式发布第三代图像分割模型——Segment Anything Models(SAM)的重大升级版SAM 3,实现技术突破性进展。该模型首次支持用户通过自然语言描述和图像示例,精准识别、分割及追踪视频中的任意物体,同时推出开源3D重建模型SAM 3D,并计划将其整合至Instagram视频创作工具Edits和Meta AI应用中,开启AI视觉处理的新篇章。
自然语言驱动:突破固定标签限制,实现开放词汇分割
SAM 3的核心创新在于引入“可提示概念分割”(Promptable Concept Segmentation,简称PCS)能力。用户只需输入“条纹红色雨伞”等自然语言描述,模型即可自动识别并分割图像或视频中所有符合条件的实例,彻底摆脱传统模型依赖预定义标签集的局限。例如,在复杂场景中,用户可通过“坐着但未拿礼物盒的人”等复杂描述,实现精准分割。
为验证大词汇量检测性能,Meta创建了SA-Co基准数据集,包含21.4万个独特概念、12.4万张图像及1700个视频,概念覆盖范围达现有基准的50倍以上。该模型支持多种提示方式,包括短语文本、图像示例、点、框、掩码等,显著提升分割灵活性与实用性,尤其适用于罕见或难以用文字描述的物体。
性能飞跃:30毫秒处理百物体,实时性接近人类感知
在处理速度方面,SAM 3展现惊人效率。在英伟达H200 GPU上,模型处理含100多个物体的单张图像仅需30毫秒;在约五个并发目标物体的视频场景中,仍可维持接近实时的性能。Meta发布的SA-Co基准测试显示,SAM 3性能较现有系统提升一倍,在LVIS数据集的零样本分割任务中准确率达47.0,显著超越前代模型的38.5;用户偏好测试中,其输出效果以约三比一的比例优于最强基准模型OWLv2。
3D重建新标杆:SAM 3D重塑物理世界感知
Meta同步推出开源模型SAM 3D,包含两个业界领先子模型:SAM 3D Objects(物体与场景重建)和SAM 3D Body(人体姿势与形状估计)。SAM 3D Objects突破物理世界3D数据障碍,通过构建大规模标注引擎与多阶段训练方案,标注近100万张图像,生成314万个模型参与的网格,实现从单张自然图像重建详细3D形状、纹理及物体布局。在人类偏好测试中,其胜率至少达5比1,支持几秒内返回高质量完整纹理重建,为机器人3D感知等近实时应用提供可能。
SAM 3D Body则专注于从单张图像进行精准3D人体姿势与形状估计,即使面对异常姿势、遮挡或多人场景亦能胜任。该模型利用大规模高质量数据(约800万张图像训练集),实现鲁棒性提升,在多个3D基准测试中表现超越以往模型,并支持交互式输入(如分割掩码、2D关键点),赋予用户预测控制权。
创新数据引擎:人机协作标注效率提升5倍
为解决高质量标注图像获取难题,Meta创建可扩展数据引擎,结合SAM 3、人类标注者与AI模型,形成快速反馈循环。对于负提示(图像中不存在的概念),标注速度较纯人工快约5倍;在细粒度领域,正提示标注速度提升36%。该系统使团队得以构建包含超400万个独特概念的大规模训练集,显著降低数据构建成本。
AI标注者基于Llama 3.2v模型,在验证掩码质量、检查实例完备性等任务上达到或超越人类准确度。通过将部分任务委托给AI,整体吞吐量较纯人工流水线提升一倍以上,为模型训练提供源源不断的高质量数据。
应用场景拓展:从家居预览到野生动物保护
技术突破已率先应用于Facebook Marketplace的“房间预览”功能,帮助用户可视化家居装饰品在个人空间中的摆放效果。此外,Meta推出Segment Anything Playground平台,降低前沿AI模型使用门槛,让普通用户无需技术背景即可体验分割能力。
在科学研究领域,SAM 3与Conservation X Labs、Osa Conservation合作,构建SA-FARI开放数据集,包含超1万个相机陷阱视频,覆盖100多个物种,每帧均标注边界框与分割掩码,助力野生动物保护。同时,与蒙特雷湾水族馆研究所(MBARI)合作的FathomNet项目,为水下图像定制分割掩码与实例分割基准,推动海洋探索AI工具发展。Meta还与Roboflow合作,提供数据标注、微调及部署工具,支持用户定制SAM 3以满足特定需求。
局限与未来:细粒度领域与视频追踪成本待优化
尽管取得显著进展,SAM 3仍存在局限。在细粒度领域外概念(如医学图像中的“血小板”)的零样本泛化能力不足,需专业领域知识支持;视频追踪成本随物体数量线性增长,每个物体独立处理,缺乏物体间通信机制。Meta表示将持续优化模型,拓展应用边界。