音频课程文档
补充阅读和资源
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
补充阅读和资源
本单元汇集了之前单元的许多组件,介绍了语音到语音翻译、语音助手和说话人日志的任务。因此,补充阅读材料为了您的方便被分为这三个新任务。
语音到语音翻译
- Meta AI 的基于离散单元的 STST:通过编码器-解码器模型实现 STST 的直接方法
- Meta AI 的闽南语直接语音到语音翻译:使用带有两阶段解码器的编码器-解码器模型实现 STST 的直接方法
- 谷歌的利用无监督和弱监督数据改进直接 STST:提出了利用无监督和弱监督数据训练直接 STST 模型的新方法,以及对 Transformer 架构的一个小改动
- 谷歌的 Translatotron-2:一个能够在翻译后的语音中保留说话人特征的系统
语音助手
- 亚马逊的精确唤醒词检测:用于设备端应用的低延迟唤醒词检测方法
- 谷歌的 RNN-Transducer 架构:对用于流式设备端 ASR 的 CTC 架构的修改
会议转录
- Hervé Bredin 的 pyannote.audio 技术报告:本报告描述了 pyannote.audio 说话人日志管道背后的主要原理
- Max Bain 等人的 Whisper X:一种使用 Whisper 模型计算单词级时间戳的更优方法