Meta 引入 SAM Audio，通过多模态提示实现高级声音隔离

realtime news Dec 17, 2025 00:57 UTC 16:57

1 Min Read

Meta AI 推出了 SAM Audio，这是一个突破性模型，旨在通过直观的多模态提示，实现复杂音频混合中的声音隔离，从而改变音频处理行业。据Meta AI介绍，该创新模型允许用户使用文本、视觉提示或时间段标记来分离音频组件。

革新音频处理

在以往进步的基础上，SAM Audio 使用感知编码器视听模块 (PE-AV)，这是一种技术引擎，提高了其在各种音频分离任务中的性能。该模型的功能类似于段落任意模型 (SAM)，后者革新了图像和视频中的对象分割。SAM Audio 旨在采用用户友好的方法，使音频分离更易于访问和实用，符合人类与声音的自然互动。

技术创新

SAM Audio 的核心在于其在文本、视觉和时间提示等多种模态下的性能，为用户提供精准的音频分离控制。这是通过三种主要方法实现的：

文本提示：允许用户输入特定声音，如“狗叫”，以进行隔离。
视觉提示：支持点击视频中的物体或说话者以隔离其音频。
时间段提示：一种创新方法，允许用户标记目标音频隔离的时间段。

该模型的架构利用流匹配扩散变压器，将音频混合和提示编码为共享表示，以生成目标和剩余音轨。一个强大的数据引擎支持这种方法，合成大规模、高质量的分离数据，提高了模型在实际场景中的适用性。

PE-AV：SAM Audio 背后的引擎

PE-AV 基于 Meta 的开源感知编码器模型构建，将先进的计算机视觉能力扩展至音频。它将视频特性与音频对齐，允许准确分离视觉基础的来源并推断屏幕外事件。这种时间对齐支持高精度的多模态音频分离，对于灵活和精确的感知结果至关重要。

基准测试与评估

Meta 介绍了 SAM Audio Judge 和 SAM Audio-Bench，用于评估和基准测试音频分离模型。SAM Audio Judge 提供了一种无参考、客观的音频分段质量评估指标，而 SAM Audio-Bench 提供了一个全面的基准，涵盖演讲、音乐和使用多模态提示的一般音效。

这些创新使 SAM Audio 在音频分离技术领域处于领先地位，在各种任务中取得了最先进的结果，并且在效率和质量上超越了之前的模型。尽管挑战仍然存在，例如相似音频事件的分离，但该模型在处理混合模态提示方面的能力显示出该领域的重大进展。

展望未来

Meta 设想 SAM Audio 成为赋能创作者、研究人员和开发者的工具，以探索新的表达形式和应用开发。与 Starkey 和 2gether-International 等合作伙伴的合作，突显出该模型在提高可访问性方面的潜力。SAM Audio 标志着更具包容性和创造性的 AI 的一步，为音频感知技术的未来创新铺平道路。

News ▸

Meta 引入 SAM Audio，通过多模态提示实现高级声音隔离

革新音频处理

技术创新

PE-AV：SAM Audio 背后的引擎

基准测试与评估

展望未来

Read More

Meta Introduces SAM Audio for Advanced Sound Isolation Using Multimodal Prompts

Blockchain's Rising Influence: Key Insights from Sovereign Day 2025

MyPrize Integrates Social Casino Experience on Avalanche Blockchain

Mt. San Rafael Hospital Adopts Oracle Health AI to Enhance Care and Efficiency

AAVE Price Prediction: Targeting $240 Recovery by Year-End Despite Current Bearish Pressure