Meta的Omnilingual ASR将革新1600种语言的语音识别 - Blockchain.News

Meta的Omnilingual ASR将革新1600种语言的语音识别

realtime news Nov 10, 2025 18:51

Meta推出了Omnilingual ASR,这是一套前沿的模型组合,利用广泛的多语言数据集,增强了超过1600种语言的自动语音识别功能。

Meta的Omnilingual ASR将革新1600种语言的语音识别

Meta发布了Omnilingual自动语音识别(ASR)系统,这是一套革命性设计,旨在提升超过1600种语言的语音识别能力。该雄心勃勃的项目由Meta AI宣布,旨在扩大语音技术的覆盖范围和准确性,为全球的语言学家和开发者提供关键工具。

全面的语言覆盖

Omnilingual ASR套件建立在Meta之前的研究基础上,提供各种型号,从适合低功耗设备的轻量级3亿参数版本,到提供高精度的7亿参数的强大模型。该计划包含通用语音模型wav2vec 2.0,提供多种尺寸,以供研究人员和开发人员用于解决各种与语音相关的任务。

开源和协作框架

所有这些模型和数据集都在Apache 2.0许可证下发布,数据则根据CC-BY许可证提供,确保广泛的可及性。该项目基于开源的fairseq2框架,使用户能够利用PyTorch生态系统中的最新工具开发定制的语音解决方案。

广泛而多样的训练语料库

Omnilingual ASR的训练语料库是迄今为止组装的最大之一,结合了公开可用的数据集和社区来源的语音录音。Meta与地方组织合作,招募母语者,通常在偏远地区,以确保多样的语言代表性。这一努力产生了最大的超低资源自发的ASR数据集,涵盖了数百种以前不支持的语言。

全球合作与社区参与

通过语言技术合作伙伴计划,Meta与全球的语言学家、研究人员和语言社区合作。与Mozilla基金会的Common Voice和Lanfrica/NaijaVoices等组织的合作为项目注入了至关重要的语言和文化见解,确保它符合本地需求并赋能全球的语言社区。

Meta的Omnilingual ASR代表了语音识别技术的重大飞跃,承诺为全球多元语言社区提升沟通和可达性。更多详情,请访问Meta AI博客

Image source: Shutterstock