Meta推出Segment Anything Model 3，用于高级图像和视频分割

Meta推出Segment Anything Model 3，用于高级图像和视频分割 - Blockchain.News

Meta AI宣布推出Segment Anything Model 3（SAM 3），这是一款旨在增强图像和视频分割能力的高级模型。据Meta AI的说法，这款新模型引入了文本和示例提示等创新功能，可在各种视觉概念中实现全面的检测、分割和跟踪。

增强的分割特性

SAM 3配备了可提示的概念分割功能，允许用户使用文本或示例提示来定义和分割视觉概念。与受固定标签集限制的传统模型不同，SAM 3支持开放词汇分割，满足更多用户请求。预计这种灵活性将在图像和视频环境中显著提高模型的性能。

除了SAM 3，Meta还推出了Segment Anything Playground，这是一个允许用户试验SAM 3功能的平台。该工具旨在简化高级AI模型在媒体修改中的应用，使其可被更广泛的受众使用，而无需技术专业知识。

SAM 3及其对应的SAM 3D正集成到包括Facebook Marketplace和Instagram的Edits应用在内的各种Meta平台中。这些集成旨在通过启用新的创意效果和可视化工具（如用于家居装饰品的“房间视图”功能）来增强用户体验。

在与Conservation X Labs和Osa Conservation的合作中，Meta正在利用SAM 3进行野生动物监测，为研究目的贡献一个公开的视频数据集。同样，与FathomNet等组织的合作正在推进海洋探索的AI工具的发展。

SAM 3架构建立在以往的AI进展基础上，融合了Meta感知编码器和DETR模型等组件。这些增强使分割性能有了显著跃升，SAM 3在具有概念的Segment Anything（SA-Co）基准测试中将性能指标翻倍。

Meta还使用SAM 3和人工标注者开发了一个可扩展的数据引擎，大幅提高了数据标注的速度和效率。该混合系统已能创建一个涵盖超过400万个独特概念的多样化训练集。

尽管SAM 3表现出色，Meta仍致力于在挑战性视觉领域的进一步进步。开源发布包含微调方法，鼓励社区将SAM 3调整为特定的用例。

Segment Anything Playground提供简便的界面以探索SAM 3的功能，提供用于媒体修改的实用模板。该平台体现了Meta将高级AI工具民主化以促进创意表达的愿景。

Image source: Shutterstock