音频课程文档

补充阅读和资源

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

补充阅读和资源

本单元将前几个单元的许多组件组合在一起,介绍了语音到语音翻译、语音助手和说话人分段等任务。为了方便起见,补充阅读材料被分成了这三个新的任务

语音到语音翻译

语音助手

会议转录

  • pyannote.audio 技术报告 由 Hervé Bredin:本报告描述了 pyannote.audio 说话人分段管道背后的主要原理
  • Whisper X 由 Max Bain 等人:使用 Whisper 模型计算词级时间戳的更高级方法