评估文本到语音模型

在训练期间，文本到语音模型优化预测频谱图值和生成的频谱图值之间的均方误差损失（或平均绝对误差）。MSE 和 MAE 都鼓励模型最小化预测频谱图和目标频谱图之间的差异。然而，由于 TTS 是一个一对多的映射问题，即给定文本的输出频谱图可以用多种不同的方式表示，因此评估结果文本到语音 (TTS) 模型要困难得多。

与许多可以使用定量指标（如准确率或精确率）客观衡量的其他计算任务不同，评估 TTS 在很大程度上依赖于主观的人工分析。

TTS 系统最常用的评估方法之一是使用平均意见得分 (MOS) 进行定性评估。MOS 是一种主观评分系统，允许人工评估员在 1 到 5 的等级范围内对合成语音的感知质量进行评分。这些分数通常通过听力测试收集，在听力测试中，人类参与者收听并评价合成的语音样本。

客观指标难以用于 TTS 评估的主要原因之一是语音感知的主观性。人类听众对语音的各个方面（包括发音、语调、自然度和清晰度）具有不同的偏好和敏感度。用单个数值捕捉这些感知细微差别是一项艰巨的任务。与此同时，人类评估的主观性使得比较和基准测试不同的 TTS 系统具有挑战性。

此外，这种评估可能会忽略语音合成的某些重要方面，例如自然度、表现力和情感影响。这些品质很难客观量化，但在合成语音需要传达类似人类的品质并唤起适当的情感反应的应用中，这些品质高度相关。

总而言之，由于缺乏真正客观的指标，评估文本到语音模型是一项复杂的任务。最常见的评估方法，平均意见得分 (MOS)，依赖于主观的人工分析。虽然 MOS 提供了对合成语音质量的宝贵见解，但它也引入了可变性和主观性。

< > 在 GitHub 上更新

音频课程

评估文本到语音模型