TTS Arena:野外文本转语音模型基准测试
自动测量文本转语音(TTS)模型的质量非常困难。评估语音的自然度和语调对人类来说是一项简单任务,但对人工智能来说却要困难得多。这就是为什么今天,我们很高兴地宣布推出 TTS 竞技场。受 LMSys 的大型语言模型聊天机器人竞技场的启发,我们开发了一个工具,让任何人都可以轻松地并排比较 TTS 模型。只需提交一些文本,听两个不同的模型将其朗读出来,然后投票选出您认为最好的模型。结果将整理成排行榜,显示社区评价最高的模型。
动机
长期以来,语音合成领域一直缺乏一种准确的衡量不同模型质量的方法。WER(词错误率)等客观指标在衡量模型质量方面并不可靠,而MOS(平均意见得分)等主观指标通常是少数听众进行的小规模实验。因此,这些测量通常对比较两个质量大致相似的模型没有帮助。为了解决这些缺点,我们邀请社区通过易于使用的界面对模型进行排名。通过向公众开放此工具并传播结果,我们旨在使模型排名民主化,并使所有人都能进行模型比较和选择。
TTS 竞技场
对人工智能系统进行人工排名并非新方法。最近,LMSys 在他们的聊天机器人竞技场中应用了这种方法,并取得了巨大成功,迄今已收集了超过 30 万个排名。由于其成功,我们为我们的排行榜采用了类似的框架,邀请任何人对合成音频进行排名。
排行榜允许用户输入文本,然后由两个模型进行合成。听完每个样本后,用户将投票选择哪个模型听起来更自然。由于存在人为偏见和滥用的风险,模型名称只会在提交投票后显示。
精选模型
我们为排行榜选择了几个 SOTA(最先进)模型。虽然大多数是开源模型,但我们也包含了一些专有模型,以便开发者可以将开源开发的状态与专有模型进行比较。
发布时可用的模型有
- ElevenLabs(专有)
- MetaVoice
- OpenVoice
- Pheme
- WhisperSpeech
- XTTS
虽然还有许多其他开源和闭源模型可用,但我们选择这些模型是因为它们通常被认为是质量最高的公开可用模型。
TTS 排行榜
竞技场投票的结果将公开显示在专用排行榜中。请注意,排行榜最初是空的,直到积累了足够的票数,模型才会逐渐出现。随着评分者提交新投票,排行榜将自动更新。
与聊天机器人竞技场类似,模型将使用类似于 Elo 评分系统的算法进行排名,该系统通常用于国际象棋和其他游戏。
结论
我们希望 TTS 竞技场 能对所有开发者有所帮助。我们很乐意听取您的反馈!如果您有任何问题或建议,请随时通过 X/Twitter DM 或在 Space 的社区选项卡 中发起讨论,告知我们。
鸣谢
特别感谢所有帮助实现这一目标的人,包括 Clémentine Fourrier、Lucian Pouget、Yoach Lacombe、Main Horse 和 Hugging Face 团队。特别是,我要感谢 VB 的时间和技术援助。我还要感谢 Sanchit Gandhi 和 Apolinário Passos 在开发过程中提供的反馈和支持。