指南:W-Okada,实时语音克隆

社区文章 发布于2024年2月17日

信息

开始之前,请注意本指南末尾提供了脚注。这些脚注由上标数字表示,例如^0,对应于文档底部找到的附加信息或参考文献。


一、变声器安装:

1 - 首先,下载对应的压缩包,访问此网站,然后选择你的版本(文件名

  • 对于 Windows 和 Nvidia GPU:MMVCServerSIO_win_onnxgpu-cuda_v* ^1
  • 下载适用于 Windows 和 AMD GPU:MMVCServerSIO_win_onnxdirectML-cuda_v* ^1

AMD GPU 用户重要注意事项 ^2

  • 下载适用于 macOS (Apple Silicon):MMVCServerSIO_mac_onnxcpu-nocuda_v* ^1

2 - 接下来,你需要将压缩包解压到主磁盘。为此,右键单击它并选择解压选项。如果你使用的是 Mac,只需双击即可打开。

更新:

更新时,请删除所有内容,**除了**以下内容:

  • model_dir 文件夹
  • 你的 start_http.bat 快捷方式
  • 如果你创建了用于阻止出现命令提示符的 VBS 脚本

不要忘记将你的附加参数、剪辑和音频重置为高于旧值的值,因为它们有时会显示不正确的值。

这也包括你在使用服务器模式时的 S.R.(采样率)。

二、配置 VB-Cable(用于虚拟声音):

VB-Cable 对于将声音发送到虚拟麦克风以用于 Discord 或其他软件是必需的。

1 - 前往 VB-Cable 的官方 VB-Audio 页面,然后点击“Download

2 - 这将下载一个 .zip 压缩包,你需要将其解压到一个新的空文件夹中。

3 - 运行 setup_x64.exe (适用于 64 位 Windows),setup.exe (适用于 32 位 Windows) 或 VBCable_MACDriver_Pack*.dmg^1 (适用于 MacOS)。

4 - 安装后,重启你的 PC/Mac,以便操作系统能够检测到 VB-Cable 音频设备。

三、使用变声器:

要使用变声器,请按照以下步骤操作

1 - 打开之前解压的文件夹。

2 - 运行 start_http

3 - 模型将开始下载。此过程的持续时间取决于您的互联网连接。

4 - 几分钟后,应用程序应该会打开。

四、推荐设置:

以下是我推荐使用的设置,以获得更好的体验:

硬件 f0 数据块 额外
GPU NVIDIA RMVPE 或 CREPE_TINY 112 4096-16384
GPU AMD/INTEL RMVPE_ONNX 或 CREPE_TINY 112 4096-16384
CPU Dio 或 Harvest 448 4096-8192
Mac M2 Max 及以下 Harvest 或 RMVPE_ONNX 或 CREPE_TINY 448 131072
Mac M2 Max 及以上 RMVPE 或 RMVPE_ONNX 或 CREPE_TINY 256 65536
  • 请注意“额外”选项。值越高,CPU 处理能力利用越多。
  • Chunk”的数量会影响语音转换器处理后的音频传输到 VB-Cable 的延迟。

建议根据您的需求和系统性能调整这些设置。

五、音频设置配置:

为了获得最佳音频质量,请按照以下步骤配置音频设置:

1 - 选择服务器音频选项。它比客户端音频更快。

2 - 选择您的音频设备

  • 选择您的主麦克风作为输入。
  • 选择 VB-Cable 音频设备作为输出:“[MME] CABLE Input (VB-Audio Virtual Cable)”。
  • 使用监听器收听输出音频。选择您的耳机。

⚠️ 请确保您的耳机已在系统设置中正确配置为默认输出设备。

如果您使用 Discord 等其他软件,请按如下配置:

  • 输入选择“CABLE Output”。
  • 输出选择您的耳机。

这些配置将确保变声器与您的其他应用程序正常工作。

六、语音转换的“f0Detector”模型选择:

您可以选择任何您想要的,但我们建议在 IV. 推荐设置 中选择以下选项

⚠️ AMD GPU: rmvpe-onnxcrepe_tiny

“f0Detector”模型的选择取决于您打算如何使用它,无论是用于唱歌、说话、说唱等。以下是一些针对不同用例的建议:

  • RMVPE:它提供卓越的质量和性能,适用于所有目的。
  • Harvest:适用于基本对话和低音说唱。
  • Dio:适用于基本对话和中/高音说唱。
  • Crepe / Crepe-full:推荐用于各种音调的说话和唱歌。
  • Crepe-tiny:Crepe 模型的更快、资源消耗更少的版本,适用于多种用途。

根据您的具体需求选择模型,以在语音转换中获得最佳效果。

七、降噪:

您可以选择启用或禁用降噪功能。但是,请注意,此功能仅在“客户端设备”模式下可用。重要的是,“客户端设备”模式下的降噪速度比“服务器设备”模式慢。要启用它,请勾选“Sup1”或“Sup2”旁边的复选框。此选项可有效显著降低不需要的噪音。但是,请记住,它可能会影响音频质量并增加 CPU 处理负载。

  • NVIDIA Broadcast 效果非常好。但是,在系统重启后,如果您不将其默认设置与所有其他设置分开设置,它可能会选择虚拟电缆作为麦克风而无法工作。为此,请打开声音设置,向下滚动到可以按“应用程序音量和设备首选项”的位置,找到此应用程序的输入区域,然后选择您的实际麦克风。根据我的测试,这解决了语音修饰器卡住的任何问题。
  • Steelseries Sonar 它集成了 Clearcast,这是一个出色的噪声消除功能,尽管不如 NVIDIA Broadcast 有效。任何人都可以使用它。

八、高级设置推荐:

为了获得最佳体验,建议使用以下高级设置。遵循这些建议以获得最佳效果:

  • 协议:sio
  • 交叉淡入淡出:重叠:4096 开始:0.1 结束:1
  • 截断: 300
  • 静默前端:开
  • 保护: 0.5
  • RVC 质量:低

九、启动变声器:

配置好所有设置后,从列表中选择所需的语音模型,点击它。

点击“Start”按钮,等待命令窗口输出中出现消息。

十、将自定义 RVC 音频模型加载到变声器中:

如果您想将自己的音频模型加载到变声器中,请按照以下步骤操作:

1 - 点击模型列表中的“编辑”按钮。这将打开此菜单。

2 - 点击“上传”并选择您要使用的模型的 .pth/.onnx 文件。

3 - 模型上传后,点击左侧的“无图像”文本,设置模型的代表图像。

⚠️ 请注意,您无法删除已下载的 RVC 模型。要替换它们,只需下载一个新模型来代替它们即可。

十一、使用 ONNX 与 PTH:

对于实时语音转换,您还可以选择使用 RVC 音频模型的 ONNX 版本。

  • 下载自定义模型时,导入 .onnx 文件而不是 .pth 文件。

目前,关于 .onnx 是否本质上优于 .pth 的确凿信息有限,但一些测试表明,对于实时语音转换,.onnx 可能比 .pth 更快。

如果您有 .pth 文件并想将其转换为 .onnx,您可以通过 W-Okada 的语音转换器进行转换

  • 选择您要转换为 .onnx 的模型,然后点击“导出到 .onnx

使用 .onnx 文件可能会提高实时语音转换的速度。请尝试一下,看看哪种选项最适合您。

十二、Audiodg.exe 优化:

1 - 打开任务管理器,点击“详细信息

2 - 右键单击 audiodg.exe优先级设置为“

3 - 再次右键单击选择设置相关性”,然后仅选择 CPU 2

关于核心数量,请选择与您实际处理器核心匹配的偶数。


脚注:

^1:星号 (*) 表示数字或字母。

^2:请记住将您使用的所有模型从 PTH 转换为 ONNX。您的 GPU 将仅支持 ONNX 格式的模型。

社区

这使用的是旧版本的 Original Wokada,用户报告 VB Audio Cable 在 Windows 上会造成问题。最好使用带 VAC Lite 的 Wokada Deiteris Fork:https://docs.aihub.gg/rvc-voice-changer/local/deiteris-w-okada-fork/

注册登录 以发表评论