Meta 引入 SAM Audio,通过多模态提示实现高级声音隔离

realtime news   Dec 17, 2025 00:57  UTC 16:57

1 Min Read

Meta AI 推出了 SAM Audio,这是一个突破性模型,旨在通过直观的多模态提示,实现复杂音频混合中的声音隔离,从而改变音频处理行业。据Meta AI介绍,该创新模型允许用户使用文本、视觉提示或时间段标记来分离音频组件。

革新音频处理

在以往进步的基础上,SAM Audio 使用感知编码器视听模块 (PE-AV),这是一种技术引擎,提高了其在各种音频分离任务中的性能。该模型的功能类似于段落任意模型 (SAM),后者革新了图像和视频中的对象分割。SAM Audio 旨在采用用户友好的方法,使音频分离更易于访问和实用,符合人类与声音的自然互动。

技术创新

SAM Audio 的核心在于其在文本、视觉和时间提示等多种模态下的性能,为用户提供精准的音频分离控制。这是通过三种主要方法实现的:

  • 文本提示:允许用户输入特定声音,如“狗叫”,以进行隔离。
  • 视觉提示:支持点击视频中的物体或说话者以隔离其音频。
  • 时间段提示:一种创新方法,允许用户标记目标音频隔离的时间段。

该模型的架构利用流匹配扩散变压器,将音频混合和提示编码为共享表示,以生成目标和剩余音轨。一个强大的数据引擎支持这种方法,合成大规模、高质量的分离数据,提高了模型在实际场景中的适用性。

PE-AV:SAM Audio 背后的引擎

PE-AV 基于 Meta 的开源感知编码器模型构建,将先进的计算机视觉能力扩展至音频。它将视频特性与音频对齐,允许准确分离视觉基础的来源并推断屏幕外事件。这种时间对齐支持高精度的多模态音频分离,对于灵活和精确的感知结果至关重要。

基准测试与评估

Meta 介绍了 SAM Audio Judge 和 SAM Audio-Bench,用于评估和基准测试音频分离模型。SAM Audio Judge 提供了一种无参考、客观的音频分段质量评估指标,而 SAM Audio-Bench 提供了一个全面的基准,涵盖演讲、音乐和使用多模态提示的一般音效。

这些创新使 SAM Audio 在音频分离技术领域处于领先地位, 在各种任务中取得了最先进的结果,并且在效率和质量上超越了之前的模型。尽管挑战仍然存在,例如相似音频事件的分离,但该模型在处理混合模态提示方面的能力显示出该领域的重大进展。

展望未来

Meta 设想 SAM Audio 成为赋能创作者、研究人员和开发者的工具,以探索新的表达形式和应用开发。与 Starkey 和 2gether-International 等合作伙伴的合作,突显出该模型在提高可访问性方面的潜力。SAM Audio 标志着更具包容性和创造性的 AI 的一步,为音频感知技术的未来创新铺平道路。



Read More