根据 AssemblyAI 最近的一份报告,在对领先的语音转文本模型的全面分析中,AssemblyAI 的 Universal-2 在与 OpenAI 的 Whisper 变体的比较中脱颖而出。评估重点在于真实世界的使用案例,评估模型在创建准确转录所需任务中的表现,如专有名词识别、字母数字转录和文本格式化。
模型比较
分析比较了 Universal-2 及其前身 Universal-1 与 OpenAI 的 Whisper large-v3 和 Whisper turbo 模型。每个模型根据字错误率(WER)、专有名词错误率(PNER)以及其他对语音转文本任务至关重要的指标进行评估。
性能指标
Universal-2 实现了最低的字错误率(WER),为 6.68%,比 Universal-1 提高了 3%。Whisper 模型虽然具有竞争力,但错误率略高,其中 large-v3 的 WER 记录为 7.88%,turbo 为 7.75%。
在专有名词识别方面,Universal-2 以 13.87% 的 PNER 展现了卓越的准确性,优于 Whisper large-v3 和 turbo。此外,该模型在文本格式化方面表现出色,实现了 10.04% 的 U-WER,表明它在标点符号和大小写处理上更为出色。
字母数字和幻觉率
Whisper large-v3 在字母数字转录方面表现出色,拥有 3.84% 的最低错误率,略高于 Universal-2 的 4.00%。然而,Universal-2 的幻觉率显著降低,相较于 Whisper 模型减少了 30%,这使其在实际应用中更可靠。
结论
Universal-2 相对于 Universal-1 的进步是显而易见的,在准确性、专有名词处理和格式化上均有改善。虽然 Whisper 在某些领域有其优势,但其对幻觉的易感性对一致性表现构成了挑战。
欲了解更多见解和详细指标,请通过 AssemblyAI 的官方报告获得完整评估。
Image source: Shutterstock