AI视觉GPT时刻！Meta新模型一键“分割世界”，网友直呼太疯狂了

智东西

作者 | 陈骏达

编辑 | 云鹏

智东西 11 月 20 日报道，今天，Meta 宣布推出一个全新的模型家族 SAM 3D，并发布两款 3D 模型，分别为用于物体和场景重建的 SAM 3D Objects 和用于人体和体型估计的 SAM 3D Body。

先来看看效果，SAM 3D 系列模型能在用户点击图像中的元素后，直接从 2D 图像中扣出一个 3D 模型，无论是物体还是人像，都能被准确重建。重建后的模型 360 度旋转，也基本看不出破绽。

SAM 的全称是 Segment Anything Model，直译过来就是 " 分割一切 " 模型。Meta 之前已经开源过 SAM 1、SAM 2 这两款 2D 图像分割模型，是该领域标杆作品。

SAM 3D 系列模型发布的同日，此前在 ICLR 大会审稿期间就引发热议的 SAM 3 也迎来正式发布。SAM 3 图像分割模型的亮点是引入了 " 可提示概念分割 " 的新功能。

在过去，大部分图像分割模型只能根据有限的预设标签对图像进行分割，而 SAM 3 让用户可以输入 " 狗 "、" 大象 "、" 斑马 " 这样具体的标签，或 " 动物 " 这样的整体概念，甚至是 " 穿着黑色外套、戴着白色帽子的人 " 这样的描述，并完成图像分割，这大幅提升了图像分割模型的通用性。

SAM 3 还具有超快的推理速度，在单张英伟达 H200 GPU 上，SAM 3 能在 30 毫秒左右识别一张包含超过 100 个可检测物体的图片。

SAM 3 的发布，让英伟达开发者技术总结 Nader Khalil 直呼：" 这可能就是计算机视觉的 ChatGPT 时刻，强大的分割功能意味着用户只要点击一下就能训练计算机视觉模型，太疯狂了。"

Meta 已经直接拿 SAM 3D Objects 和 Sam 3 开始卖货了。Facebook Market 现在提供新的 " 房间视图 " 功能，让用户可在购买家具前直观地感受家居装饰品在空间中的风格和合适度。

目前，SAM 3D 系列模型和 SAM 3 都已经能在 Meta 最新打造的 Segment Anything Playground 中进行体验。SAM 3D 的训练和评估数据、评估基准、模型检查点、推理代码以及参数化人类模型都已经开源，SAM 3 开源了模型检查点、评估数据集和微调代码。

SAM 3D 博客（内含论文、开源链接）：

https://ai.meta.com/blog/sam-3d/

SAM 3 博客（内含论文、开源链接）：

https://ai.meta.com/blog/segment-anything-model-3/

一、标注近百万张图像，几秒钟完成全纹理 3D 重建

过去，三维建模一直面临着数据匮乏的问题。与文本、图像等丰富的资料相比，真实世界的 3D 数据少得可怜，大多数模型只能处理孤立的合成资产，或者在简单背景下重建单个高分辨率物体。这让 3D 重建在现实场景中显得力不从心。

SAM 3D Objects 的出现，则打破了这一局限。通过强大的数据注释引擎，它在大规模自然图像上实现了 3D 物体的精细标注：近百万张图像，生成超过 314 万个网格模型。

这一过程结合了 " 众包 + 专家 " 模式。普通数据标注者对模型生成的多个选项进行评分，最难的部分交给资深 3D 艺术家处理。

SAM 3D Objects 还借鉴了大型语言模型的训练理念，将合成数据学习重新定义为 " 三维预训练 "，再通过后续阶段的微调，让模型在真实图像上发挥出色。

这种方法不仅提升了模型的鲁棒性和输出质量，也反过来让数据生成更高效，实现了数据引擎与模型训练的正向循环。

为了验证成果，团队还与艺术家合作建立了 SAM 3D 艺术家对象数据集（SA-3DAO），这是首个专门用于评估物理世界图像中单幅 3D 重建能力的数据集。相比现有基准，这个数据集的图像和物体更具挑战性。

性能方面，SAM 3D Objects 在一对一的人类偏好测试中，以 5:1 的优势战胜现有领先模型。同时，结合扩散捷径和优化算法，它能在几秒钟内完成全纹理 3D 重建，让几乎实时的三维应用成为可能，比如为机器人提供即时视觉感知。

它不仅可以重建物体的形状、纹理和姿态，还能让用户自由操控摄像机，从不同角度观察场景。这意味着即使面对小物体、遮挡或间接视角，SAM 3D Objects 也能从日常照片中提取出三维细节。

当然，这一模型仍有提升空间。当前模型的输出分辨率有限，复杂物体的细节还可能出现缺失；同时，物体布局预测仍以单个物体为主，对多物体的物理交互推理尚未实现。

未来，通过提高分辨率和加入多物体联合推理，SAM 3D Objects 有望在真实世界场景中实现更精细、更自然的三维重建。

二、三维重建更具交互性和可控性，配备新型开源 3D 格式

SAM 3D Objects 主要面向物体的三维重建，而 SAM 3D Body 则专注于人体的三维重建。SAM 3D Body 能够从单张图像中精确估算人体的三维姿态和形状，即便面对异常姿势、局部遮挡，甚至多人复杂场景，也能稳定地输出。

值得注意的是，SAM 3D Body 支持提示输入，用户可以通过分割掩码、二维关键点等方式引导和控制模型的预测，让三维重建更具交互性和可控性。

SAM 3D Body 的核心是一种名为 Meta Momentum Human Rig（MHR）的开源 3D 网格格式，它将人体的骨骼结构与软组织形状分离，从而提高了模型输出的可解释性。

模型采用 Transformer Encoder-Decoder 架构，图像编码器能够捕捉身体各部位的高分辨率细节，而网格解码器则支持基于提示的三维网格预测。这种设计让用户不仅能获得精确的三维人体模型，还能在交互中灵活调整和微调结果。

在数据方面，SAM 3D Body 研究团队整合了数十亿张图像、多机位高质量视频以及专业合成数据，通过自动化数据引擎筛选出罕见姿势、遮挡或复杂服装等高价值图像，形成约 800 万张高质量训练样本。

这样的数据策略让模型在面对多样化场景时仍然保持强大的鲁棒性，同时结合基于提示的多步细化训练，使三维预测与二维视觉证据对齐得更加精确。

发布的基准结果显示，SAM 3D Body 在多个三维人体基准测试中取得了显著优势，准确性和稳健性均领先于以往模型。

此外，团队还开放了 MHR 模型，这一参数化人体模型在商业许可下可供使用，使 Meta 的技术如 Codec Avatars 等得以落地应用。

SAM 3D Body 主要针对单人处理，尚未支持多人或人与物体的交互预测，这限制了对相对位置和物理互动的准确推理。此外，其手部姿势的估计在精确度上仍落后于专门的手部姿势估计方法。

未来，SAM 3D Body 计划将人与物体、环境互动纳入训练，同时提升手部姿势重建精度，使模型在真实场景中更全面、更自然。

三、分割灵活性增强，AI 深度参与数据构建

如果说 SAM 3D 系列模型代表着 Meta 在三维视觉重建领域的首次突破，那么 SAM 3 对 Meta 在 2D 图像分割领域探索的延续。

SAM 3 是一款统一模型，能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪，其开放性和交互性提升了视觉创作和科学研究的可能性。

通过 " 可提示概念分割 "，SAM 3 能够识别更复杂、细微的概念，例如 " 条纹红伞 " 或 " 手中未持礼盒的坐着的人 "。

为衡量大词汇量分割性能，Meta 同时推出了 Segment Anything with Concepts（SA-Co）数据集，这一基准覆盖了远超以往的数据概念，并对图像和视频中的开放式概念分割进行了挑战测试。

SAM 3 模型支持多种提示形式，包括文本短语、示例图像以及视觉提示（如掩码、框选点），增强了分割灵活性。

Meta 公布的测试结果显示，SAM 3 在 SA-Co 基准上的概念分割性能实现了约 100% 的提升，在用户偏好测试中，相较最强竞品模型 OWLv2，SAM 3 的输出更受青睐，比例达到约 3:1（SAM 3:OWLv2）。

此外，SAM 3 在传统 SAM 2 的视觉分割任务中也保持领先表现，零样本 LVIS 和目标计数等挑战性任务同样取得显著进展。

在数据构建方面，SAM 3 采用人类与 AI 协同的数据引擎。这一流程包括使用 SAM 3 及 Llama 3.2v 模型自动生成初始分割掩码和标签，再由人类与 AI 注释者验证和修正。

AI 注释者不仅能提升标注速度（负样本快约 400%，正样本快约 36%），还会自动筛选简单样本，把人力集中于最具挑战的案例。

同时，Meta 利用概念本体（基于维基百科的概念字典）扩展数据覆盖范围，使稀有概念也能获得标注支持。

消融实验显示，AI 与人类注释结合的策略能显著提升模型性能，同时为新视觉域的自动数据生成提供可行途径。

在模型架构上，SAM 3 结合了多项先进技术：文本与图像编码器基于 Meta Perception Encoder，检测器采用 DETR 架构，跟踪组件延续了 SAM 2 的记忆模块。

通过统一架构处理检测、分割和跟踪任务，SAM 3 在处理复杂视觉任务时避免了任务间冲突，同时保持了高性能和高效训练。

SAM 3 在某些极端场景下仍有提升空间，例如零样本下识别专业术语（如 " 血小板 "）或处理长复杂文本描述。在视频场景中，SAM 3 将每个对象单独处理，使得多对象场景下效率和性能仍可优化。

Meta 提供了模型微调方法和工具，鼓励开源社区针对特定任务和视觉域进行适配和扩展。

结语：生成式 AI，正改变 CV 的玩法

生成式 AI 的崛起，正在反哺上一轮以计算机视觉为核心的 AI 浪潮。从数据集的打造到模型训练方式创新，生成式 AI 扩展了 CV 模型的能力边界，也带来更多的创新玩法。

此外，我们也看到 Meta 已经在积极地将相关技术用于真实业务，随着数据和用户反馈的积累，SAM 和 SAM 3D 系列模型或将给我们带来更多的惊喜。

宙世代

一起剪

相关标签