补充阅读和资源
本单元将前几个单元的许多组件组合在一起,介绍了语音到语音翻译、语音助手和说话人分段等任务。为了方便起见,补充阅读材料被分成了这三个新的任务
语音到语音翻译
- 使用离散单元的语音到语音翻译 由 Meta AI:通过编码器-解码器模型对语音到语音翻译的直接方法
- 闽南语直接语音到语音翻译 由 Meta AI:使用具有两阶段解码器的编码器-解码器模型对语音到语音翻译的直接方法
- 利用无监督和弱监督数据来改进直接语音到语音翻译 由 Google:提出利用无监督和弱监督数据训练直接语音到语音翻译模型的新方法,以及对 Transformer 架构的一点小改动
- Translatotron-2 由 Google:能够在翻译后的语音中保留说话人特征的系统
语音助手
- 唤醒词开始和结束的准确检测 由 Amazon:用于设备上应用的唤醒词检测的低延迟方法
- RNN-Transducer 架构 由 Google:对 CTC 架构的修改,用于流式设备上的自动语音识别
会议转录
- pyannote.audio 技术报告 由 Hervé Bredin:本报告描述了
pyannote.audio
说话人分段管道背后的主要原理 - Whisper X 由 Max Bain 等人:使用 Whisper 模型计算词级时间戳的更高级方法