升级 Kokoro:短促语音的自然 TTS

社区文章 发布于 2024 年 11 月 22 日

Kokoro 刚刚升级,显著提高了短促语音的 TTS 自然度,同时保持了长句的同等性能。

以前,当你要求 Kokoro 使用 Sarah (af_sarah) 的声音说“你好!”时,你会得到这样的效果:输出音频带有不自然的呼吸声,而且这还是在默认后处理下进行的:(1)两端裁剪,以及(2)使用 noisereduce 进行降噪。

现在,相同的声音在相同的文本上听起来像这样:这**好多了**。此外,我们不再导入 noisereduce,因为它有或没有都听起来差不多。

让我们检查一下长句的同等性能。模型在这方面已经相当不错了,所以我们至少要确保没有退步。

This morning, The Information published an article titled "A Complex New Age of Face Tech". The first sentence reads: "In September, Instagram unveiled a splashy new feature called Teen Accounts, an effort by Meta Platforms, the app’s owner, to show it’s better protecting young people with stricter privacy and safety settings."

之前

之后

大体相同。吹毛求疵地说,“之前”的版本过分强调了“Tech”,而“之后”的版本在“September”上扬了语调,而它可能应该保持平坦。

Kokoro 以前并不完美,现在也仍然不完美,但这代表着朝着正确方向迈出了重要的一步。

你可以在 https://huggingface.co/spaces/hexgrad/Kokoro-TTS 了解 Kokoro。

社区

用 Python 脚本也可以等效下载

这带来了巨大的改变。

我注意到 Kokoro 处理单个罗马数字比 OpenAI 提供的任何模型都要好。

非常感谢!

注册登录 评论