ElevenLabs推出十一 v3：AI文本到语音技术的飞跃

ElevenLabs推出十一 v3：AI文本到语音技术的飞跃 - Blockchain.News

根据ElevenLabs的说法，ElevenLabs推出了十一 v3，这是一款先进的AI文本到语音模型，承诺为行业设定新的标准。这一alpha版本引入了突破性功能，如高级音频标签、对话模式以及支持70多种语言，旨在提供高度表现性和情感细腻的语音输出。

十一 v3的创新功能

十一 v3提供了一套旨在增强AI生成语音的真实感和多样性的功能。该模型包括高级音频标签，能够精确控制语调、情感和非语言线索，如叹息和耳语。其对话模式支持多语者互动，具有自然的节奏和打断，提供更真实的对话体验。此外，该模型涵盖70多种语言，以迎合多元化的全球观众。

自多语言v2发布以来，ElevenLabs观察到了语音AI在电影、游戏开发、教育等领域的显著采用。然而，实现富有表现力和动态语音的挑战仍然存在。十一 v3旨在克服这些限制，提供能够表达诸如笑声和惊讶等情感的声音，增强AI交互的真实感。

十一 v3的推出为创作者在视频、有声读物和媒体工具等项目中开辟了新的可能性，允许更高水平的表现力。尽管当前版本比之前的版本需要更复杂的提示工程，但它承诺带来惊艳的效果。一个实时版本的v3目前正在开发中，推荐使用v2.5 Turbo或Flash进行实时应用。

十一 v3现已在ElevenLabs网站和通过API提供。在初始发布阶段，用户可以享受UI自助服务计划的80％折扣，使其比以前的版本更具价格优势。此促销价格将持续到2025年6月底。

凭借其开创性的功能和增强的表现力，十一 v3在AI文本到语音技术领域将自己定位为一个变革性的工具。随着开发者和创作者将这些能力整合到他们的项目中，该模型承诺重新定义AI驱动音频内容的可能性边界。

Image source: Shutterstock