Meta的Omnilingual ASR将革新1600种语言的语音识别

Meta的Omnilingual ASR将革新1600种语言的语音识别 - Blockchain.News

Meta发布了Omnilingual自动语音识别（ASR）系统，这是一套革命性设计，旨在提升超过1600种语言的语音识别能力。该雄心勃勃的项目由Meta AI宣布，旨在扩大语音技术的覆盖范围和准确性，为全球的语言学家和开发者提供关键工具。

全面的语言覆盖

Omnilingual ASR套件建立在Meta之前的研究基础上，提供各种型号，从适合低功耗设备的轻量级3亿参数版本，到提供高精度的7亿参数的强大模型。该计划包含通用语音模型wav2vec 2.0，提供多种尺寸，以供研究人员和开发人员用于解决各种与语音相关的任务。

所有这些模型和数据集都在Apache 2.0许可证下发布，数据则根据CC-BY许可证提供，确保广泛的可及性。该项目基于开源的fairseq2框架，使用户能够利用PyTorch生态系统中的最新工具开发定制的语音解决方案。

Omnilingual ASR的训练语料库是迄今为止组装的最大之一，结合了公开可用的数据集和社区来源的语音录音。Meta与地方组织合作，招募母语者，通常在偏远地区，以确保多样的语言代表性。这一努力产生了最大的超低资源自发的ASR数据集，涵盖了数百种以前不支持的语言。

通过语言技术合作伙伴计划，Meta与全球的语言学家、研究人员和语言社区合作。与Mozilla基金会的Common Voice和Lanfrica/NaijaVoices等组织的合作为项目注入了至关重要的语言和文化见解，确保它符合本地需求并赋能全球的语言社区。

Meta的Omnilingual ASR代表了语音识别技术的重大飞跃，承诺为全球多元语言社区提升沟通和可达性。更多详情，请访问Meta AI博客。

Image source: Shutterstock