音频课程文档
补充阅读材料和资源
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
补充阅读材料和资源
本单元整合了前几个单元的许多组件,介绍了语音到语音翻译、语音助手和说话人识别等任务。因此,为方便起见,补充阅读材料分为这三项新任务
语音到语音翻译
- 使用离散单元的 STST,Meta AI:通过编码器-解码器模型实现 STST 的直接方法
- 闽南语直接语音到语音翻译,Meta AI:使用编码器-解码器模型和两阶段解码器实现 STST 的直接方法
- 利用无监督和弱监督数据改进直接 STST,Google:提出了利用无监督和弱监督数据训练直接 STST 模型的新方法,并对 Transformer 架构进行了微小更改
- Translatotron-2,Google:一个能够在翻译语音中保留说话人特征的系统
语音助手
- 准确的唤醒词检测,Amazon:一种用于设备上应用程序的低延迟唤醒词检测方法
- RNN-Transducer 架构,Google:CTC 架构的修改,用于流式设备上 ASR
会议转录
- pyannote.audio 技术报告,Hervé Bredin:本报告描述了
pyannote.audio
说话人识别管道背后的主要原理 - Whisper X,Max Bain 等人:使用 Whisper 模型计算单词级时间戳的卓越方法