音频课程文档

检查您对课程材料的理解

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

检查您对课程材料的理解

1. 采样率以什么单位测量?

2. 流式传输大型音频数据集时,您何时可以开始使用它?

3. 什么是频谱图?

4. 将原始音频数据转换为 Whisper 预期的对数梅尔频谱图的最简单方法是什么?

A.

librosa.feature.melspectrogram(audio["array"])

B.

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")
feature_extractor(audio["array"])

C.

dataset.feature(audio["array"], model="whisper")

5. 如何从 🤗 Hub 加载数据集?

A.

from datasets import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

B.

import librosa

dataset = librosa.load(PATH_TO_DATASET)

C.

from transformers import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

6. 您的自定义数据集包含具有 32 kHz 采样率的高质量音频。您希望训练一个语音识别模型,该模型期望音频示例具有 16 kHz 的采样率。您应该怎么做?

7. 如何将机器学习模型生成的频谱图转换为波形?