指南：W-Okada，实时语音克隆

社区文章发布于2024年2月17日

Leny

Lenylvt

信息

开始之前，请注意本指南末尾提供了脚注。这些脚注由上标数字表示，例如^0，对应于文档底部找到的附加信息或参考文献。

一、变声器安装：

1 - 首先，下载对应的压缩包，访问此网站，然后选择你的版本（文件名）

对于 Windows 和 Nvidia GPU：MMVCServerSIO_win_onnxgpu-cuda_v* ^1
下载适用于 Windows 和 AMD GPU：MMVCServerSIO_win_onnxdirectML-cuda_v* ^1

AMD GPU 用户重要注意事项 ^2

下载适用于 macOS (Apple Silicon)：MMVCServerSIO_mac_onnxcpu-nocuda_v* ^1

2 - 接下来，你需要将压缩包解压到主磁盘。为此，右键单击它并选择解压选项。如果你使用的是 Mac，只需双击即可打开。

更新：

更新时，请删除所有内容，**除了**以下内容：

model_dir 文件夹
你的 start_http.bat 快捷方式
如果你创建了用于阻止出现命令提示符的 VBS 脚本。

不要忘记将你的附加参数、剪辑和音频重置为高于旧值的值，因为它们有时会显示不正确的值。

这也包括你在使用服务器模式时的 S.R.（采样率）。

二、配置 VB-Cable（用于虚拟声音）：

VB-Cable 对于将声音发送到虚拟麦克风以用于 Discord 或其他软件是必需的。

1 - 前往 VB-Cable 的官方 VB-Audio 页面，然后点击“Download”

2 - 这将下载一个 .zip 压缩包，你需要将其解压到一个新的空文件夹中。

3 - 运行 setup_x64.exe (适用于 64 位 Windows)，setup.exe (适用于 32 位 Windows) 或 VBCable_MACDriver_Pack*.dmg^1 (适用于 MacOS)。

4 - 安装后，重启你的 PC/Mac，以便操作系统能够检测到 VB-Cable 音频设备。

三、使用变声器：

要使用变声器，请按照以下步骤操作

1 - 打开之前解压的文件夹。

2 - 运行 start_http。

3 - 模型将开始下载。此过程的持续时间取决于您的互联网连接。

4 - 几分钟后，应用程序应该会打开。

四、推荐设置：

以下是我推荐使用的设置，以获得更好的体验：

硬件	f0	数据块	额外
GPU NVIDIA	RMVPE 或 CREPE_TINY	112	4096-16384
GPU AMD/INTEL	RMVPE_ONNX 或 CREPE_TINY	112	4096-16384
CPU	Dio 或 Harvest	448	4096-8192
Mac M2 Max 及以下	Harvest 或 RMVPE_ONNX 或 CREPE_TINY	448	131072
Mac M2 Max 及以上	RMVPE 或 RMVPE_ONNX 或 CREPE_TINY	256	65536

请注意“额外”选项。值越高，CPU 处理能力利用越多。
“Chunk”的数量会影响语音转换器处理后的音频传输到 VB-Cable 的延迟。

建议根据您的需求和系统性能调整这些设置。

五、音频设置配置：

为了获得最佳音频质量，请按照以下步骤配置音频设置：

1 - 选择服务器音频选项。它比客户端音频更快。

2 - 选择您的音频设备

选择您的主麦克风作为输入。
选择 VB-Cable 音频设备作为输出：“[MME] CABLE Input (VB-Audio Virtual Cable)”。
使用监听器收听输出音频。选择您的耳机。

⚠️ 请确保您的耳机已在系统设置中正确配置为默认输出设备。

如果您使用 Discord 等其他软件，请按如下配置：

输入选择“CABLE Output”。
输出选择您的耳机。

这些配置将确保变声器与您的其他应用程序正常工作。

六、语音转换的“f0Detector”模型选择：

您可以选择任何您想要的，但我们建议在 IV. 推荐设置 中选择以下选项

⚠️ AMD GPU: rmvpe-onnx 或 crepe_tiny

“f0Detector”模型的选择取决于您打算如何使用它，无论是用于唱歌、说话、说唱等。以下是一些针对不同用例的建议：

RMVPE：它提供卓越的质量和性能，适用于所有目的。
Harvest：适用于基本对话和低音说唱。
Dio：适用于基本对话和中/高音说唱。
Crepe / Crepe-full：推荐用于各种音调的说话和唱歌。
Crepe-tiny：Crepe 模型的更快、资源消耗更少的版本，适用于多种用途。

根据您的具体需求选择模型，以在语音转换中获得最佳效果。

七、降噪：

您可以选择启用或禁用降噪功能。但是，请注意，此功能仅在“客户端设备”模式下可用。重要的是，“客户端设备”模式下的降噪速度比“服务器设备”模式慢。要启用它，请勾选“Sup1”或“Sup2”旁边的复选框。此选项可有效显著降低不需要的噪音。但是，请记住，它可能会影响音频质量并增加 CPU 处理负载。

NVIDIA Broadcast 效果非常好。但是，在系统重启后，如果您不将其默认设置与所有其他设置分开设置，它可能会选择虚拟电缆作为麦克风而无法工作。为此，请打开声音设置，向下滚动到可以按“应用程序音量和设备首选项”的位置，找到此应用程序的输入区域，然后选择您的实际麦克风。根据我的测试，这解决了语音修饰器卡住的任何问题。
Steelseries Sonar 它集成了 Clearcast，这是一个出色的噪声消除功能，尽管不如 NVIDIA Broadcast 有效。任何人都可以使用它。

八、高级设置推荐：

为了获得最佳体验，建议使用以下高级设置。遵循这些建议以获得最佳效果：

协议：sio
交叉淡入淡出：重叠：4096 开始：0.1 结束：1
截断: 300
静默前端：开
保护: 0.5
RVC 质量：低

九、启动变声器：

配置好所有设置后，从列表中选择所需的语音模型，点击它。

点击“Start”按钮，等待命令窗口输出中出现消息。

十、将自定义 RVC 音频模型加载到变声器中：

如果您想将自己的音频模型加载到变声器中，请按照以下步骤操作：

1 - 点击模型列表中的“编辑”按钮。这将打开此菜单。

2 - 点击“上传”并选择您要使用的模型的 .pth/.onnx 文件。

3 - 模型上传后，点击左侧的“无图像”文本，设置模型的代表图像。

⚠️ 请注意，您无法删除已下载的 RVC 模型。要替换它们，只需下载一个新模型来代替它们即可。

十一、使用 ONNX 与 PTH：

对于实时语音转换，您还可以选择使用 RVC 音频模型的 ONNX 版本。

下载自定义模型时，导入 .onnx 文件而不是 .pth 文件。

目前，关于 .onnx 是否本质上优于 .pth 的确凿信息有限，但一些测试表明，对于实时语音转换，.onnx 可能比 .pth 更快。

如果您有 .pth 文件并想将其转换为 .onnx，您可以通过 W-Okada 的语音转换器进行转换

选择您要转换为 .onnx 的模型，然后点击“导出到 .onnx”

使用 .onnx 文件可能会提高实时语音转换的速度。请尝试一下，看看哪种选项最适合您。

十二、Audiodg.exe 优化：

1 - 打开任务管理器，点击“详细信息”

2 - 右键单击 audiodg.exe 并将优先级设置为“高”

3 - 再次右键单击并选择“设置相关性”，然后仅选择 CPU 2。

关于核心数量，请选择与您实际处理器核心匹配的偶数。

脚注：

^1：星号 (*) 表示数字或字母。

^2：请记住将您使用的所有模型从 PTH 转换为 ONNX。您的 GPU 将仅支持 ONNX 格式的模型。

社区

Nick088

29 天前

这使用的是旧版本的 Original Wokada，用户报告 VB Audio Cable 在 Windows 上会造成问题。最好使用带 VAC Lite 的 Wokada Deiteris Fork：https://docs.aihub.gg/rvc-voice-changer/local/deiteris-w-okada-fork/

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以发表评论