音频课程文档

检查您对课程材料的理解

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

检查您对课程材料的理解

1. 采样率的单位是什么?

2. 当流式传输大型音频数据集时,您多久可以开始使用它?

3. 什么是频谱图?

4. 将原始音频数据转换为 Whisper 期望的 log-mel 频谱图的最简单方法是什么?

A.

librosa.feature.melspectrogram(audio["array"])

B.

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")
feature_extractor(audio["array"])

C.

dataset.feature(audio["array"], model="whisper")

5. 如何从 🤗 Hub 加载数据集?

A.

from datasets import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

B.

import librosa

dataset = librosa.load(PATH_TO_DATASET)

C.

from transformers import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

6. 您的自定义数据集包含 32 kHz 采样率的高质量音频。您想训练一个语音识别模型,该模型期望音频示例具有 16 kHz 采样率。您应该怎么做?

7. 如何将机器学习模型生成的频谱图转换为波形?

< > 在 GitHub 上更新