音频课程文档

补充阅读材料和资源

音频课程

第 0 单元. 欢迎学习本课程！

第 1 单元. 处理音频数据

第 2 单元. 音频应用简介

第 3 单元. 用于音频的 Transformer 架构

第 4 单元. 构建一个音乐流派分类器

第 5 单元. 自动语音识别

第 6 单元. 从文本到语音

第 7 单元. 综合应用

你将学到什么以及你将构建什么语音到语音翻译创建语音助手会议转录动手练习补充阅读材料和资源

第 8 单元. 终点线

课程活动

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

补充阅读材料和资源

本单元整合了前几个单元的许多组件，介绍了语音到语音翻译、语音助手和说话人识别等任务。因此，为方便起见，补充阅读材料分为这三项新任务

语音到语音翻译

使用离散单元的 STST，Meta AI：通过编码器-解码器模型实现 STST 的直接方法
闽南语直接语音到语音翻译，Meta AI：使用编码器-解码器模型和两阶段解码器实现 STST 的直接方法
利用无监督和弱监督数据改进直接 STST，Google：提出了利用无监督和弱监督数据训练直接 STST 模型的新方法，并对 Transformer 架构进行了微小更改
Translatotron-2，Google：一个能够在翻译语音中保留说话人特征的系统

语音助手

准确的唤醒词检测，Amazon：一种用于设备上应用程序的低延迟唤醒词检测方法
RNN-Transducer 架构，Google：CTC 架构的修改，用于流式设备上 ASR

会议转录

pyannote.audio 技术报告，Hervé Bredin：本报告描述了 pyannote.audio 说话人识别管道背后的主要原理
Whisper X，Max Bain 等人：使用 Whisper 模型计算单词级时间戳的卓越方法

< > 在 GitHub 上更新

←动手练习恭喜！→

© . This site is unofficial and not affiliated with Hugging Face, Inc.