指南:W-Okada,实时语音克隆
信息
开始之前,请注意本指南末尾提供了脚注。这些脚注由上标数字表示,例如^0,对应于文档底部找到的附加信息或参考文献。
一、变声器安装:
1 - 首先,下载对应的压缩包,访问此网站,然后选择你的版本(文件名)
- 对于 Windows 和 Nvidia GPU:
MMVCServerSIO_win_onnxgpu-cuda_v*
^1 - 下载适用于 Windows 和 AMD GPU:
MMVCServerSIO_win_onnxdirectML-cuda_v*
^1
AMD GPU 用户重要注意事项 ^2
- 下载适用于 macOS (Apple Silicon):
MMVCServerSIO_mac_onnxcpu-nocuda_v*
^1
2 - 接下来,你需要将压缩包解压到主磁盘。为此,右键单击它并选择解压选项。如果你使用的是 Mac,只需双击即可打开。
更新:
更新时,请删除所有内容,**除了**以下内容:
model_dir
文件夹- 你的
start_http.bat
快捷方式 - 如果你创建了用于阻止出现命令提示符的
VBS 脚本
。
不要忘记将你的附加参数、剪辑和音频重置为高于旧值的值,因为它们有时会显示不正确的值。
这也包括你在使用服务器模式时的 S.R.(采样率)。
二、配置 VB-Cable(用于虚拟声音):
VB-Cable 对于将声音发送到虚拟麦克风以用于 Discord 或其他软件是必需的。
1 - 前往 VB-Cable 的官方 VB-Audio 页面,然后点击“Download
”
2 - 这将下载一个 .zip
压缩包,你需要将其解压到一个新的空文件夹中。
3 - 运行 setup_x64.exe
(适用于 64 位 Windows),setup.exe
(适用于 32 位 Windows) 或 VBCable_MACDriver_Pack*.dmg
^1 (适用于 MacOS)。
4 - 安装后,重启你的 PC/Mac,以便操作系统能够检测到 VB-Cable 音频设备。
三、使用变声器:
要使用变声器,请按照以下步骤操作
1 - 打开之前解压的文件夹。
2 - 运行 start_http
。
3 - 模型将开始下载。此过程的持续时间取决于您的互联网连接。
4 - 几分钟后,应用程序应该会打开。
四、推荐设置:
以下是我推荐使用的设置,以获得更好的体验:
硬件 | f0 | 数据块 | 额外 |
---|---|---|---|
GPU NVIDIA | RMVPE 或 CREPE_TINY | 112 | 4096-16384 |
GPU AMD/INTEL | RMVPE_ONNX 或 CREPE_TINY | 112 | 4096-16384 |
CPU | Dio 或 Harvest | 448 | 4096-8192 |
Mac M2 Max 及以下 | Harvest 或 RMVPE_ONNX 或 CREPE_TINY | 448 | 131072 |
Mac M2 Max 及以上 | RMVPE 或 RMVPE_ONNX 或 CREPE_TINY | 256 | 65536 |
- 请注意“
额外
”选项。值越高,CPU 处理能力利用越多。 - “
Chunk
”的数量会影响语音转换器处理后的音频传输到 VB-Cable 的延迟。
建议根据您的需求和系统性能调整这些设置。
五、音频设置配置:
为了获得最佳音频质量,请按照以下步骤配置音频设置:
1 - 选择服务器音频选项。它比客户端音频更快。
2 - 选择您的音频设备
- 选择您的主麦克风作为输入。
- 选择 VB-Cable 音频设备作为输出:“
[MME] CABLE Input (VB-Audio Virtual Cable)
”。 - 使用监听器收听输出音频。选择您的耳机。
⚠️ 请确保您的耳机已在系统设置中正确配置为默认输出设备。
如果您使用 Discord 等其他软件,请按如下配置:
- 输入选择“
CABLE Output
”。 - 输出选择您的耳机。
这些配置将确保变声器与您的其他应用程序正常工作。
六、语音转换的“f0Detector”模型选择:
您可以选择任何您想要的,但我们建议在 IV. 推荐设置
中选择以下选项
⚠️ AMD GPU: rmvpe-onnx
或 crepe_tiny
“f0Detector”模型的选择取决于您打算如何使用它,无论是用于唱歌、说话、说唱等。以下是一些针对不同用例的建议:
- RMVPE:它提供卓越的质量和性能,适用于所有目的。
- Harvest:适用于基本对话和低音说唱。
- Dio:适用于基本对话和中/高音说唱。
- Crepe / Crepe-full:推荐用于各种音调的说话和唱歌。
- Crepe-tiny:Crepe 模型的更快、资源消耗更少的版本,适用于多种用途。
根据您的具体需求选择模型,以在语音转换中获得最佳效果。
七、降噪:
您可以选择启用或禁用降噪功能。但是,请注意,此功能仅在“客户端设备
”模式下可用。重要的是,“客户端设备
”模式下的降噪速度比“服务器设备
”模式慢。要启用它,请勾选“Sup1
”或“Sup2
”旁边的复选框。此选项可有效显著降低不需要的噪音。但是,请记住,它可能会影响音频质量并增加 CPU 处理负载。
- NVIDIA Broadcast 效果非常好。但是,在系统重启后,如果您不将其默认设置与所有其他设置分开设置,它可能会选择虚拟电缆作为麦克风而无法工作。为此,请打开声音设置,向下滚动到可以按“应用程序音量和设备首选项”的位置,找到此应用程序的输入区域,然后选择您的实际麦克风。根据我的测试,这解决了语音修饰器卡住的任何问题。
- Steelseries Sonar 它集成了 Clearcast,这是一个出色的噪声消除功能,尽管不如 NVIDIA Broadcast 有效。任何人都可以使用它。
八、高级设置推荐:
为了获得最佳体验,建议使用以下高级设置。遵循这些建议以获得最佳效果:
- 协议:sio
- 交叉淡入淡出:重叠:4096 开始:0.1 结束:1
- 截断: 300
- 静默前端:开
- 保护: 0.5
- RVC 质量:低
九、启动变声器:
配置好所有设置后,从列表中选择所需的语音模型,点击它。
点击“Start
”按钮,等待命令窗口输出中出现消息。
十、将自定义 RVC 音频模型加载到变声器中:
如果您想将自己的音频模型加载到变声器中,请按照以下步骤操作:
1 - 点击模型列表中的“编辑
”按钮。这将打开此菜单。
2 - 点击“上传
”并选择您要使用的模型的 .pth/.onnx
文件。
3 - 模型上传后,点击左侧的“无图像
”文本,设置模型的代表图像。
⚠️ 请注意,您无法删除已下载的 RVC 模型。要替换它们,只需下载一个新模型来代替它们即可。
十一、使用 ONNX 与 PTH:
对于实时语音转换,您还可以选择使用 RVC 音频模型的 ONNX 版本。
- 下载自定义模型时,导入
.onnx
文件而不是.pth
文件。
目前,关于 .onnx
是否本质上优于 .pth
的确凿信息有限,但一些测试表明,对于实时语音转换,.onnx
可能比 .pth
更快。
如果您有 .pth
文件并想将其转换为 .onnx,您可以通过 W-Okada 的语音转换器进行转换
- 选择您要转换为
.onnx
的模型,然后点击“导出到 .onnx
”
使用 .onnx
文件可能会提高实时语音转换的速度。请尝试一下,看看哪种选项最适合您。
十二、Audiodg.exe 优化:
1 - 打开任务管理器,点击“详细信息
”
2 - 右键单击 audiodg.exe
并将优先级设置为“高
”
3 - 再次右键单击并选择“设置相关性
”,然后仅选择 CPU 2。
关于核心数量,请选择与您实际处理器核心匹配的偶数。
脚注:
^1:星号 (*) 表示数字或字母。
^2:请记住将您使用的所有模型从 PTH 转换为 ONNX。您的 GPU 将仅支持 ONNX 格式的模型。