CLAP

概览

CLAP 模型在 Large Scale Contrastive Language-Audio pretraining with feature fusion and keyword-to-caption augmentation by Yusong Wu, Ke Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, Shlomo Dubnov 中被提出。

CLAP (对比语言-音频预训练) 是一个在各种 (音频，文本) 对上训练的神经网络。它可以被指示预测给定音频最相关的文本片段，而无需直接针对任务进行优化。CLAP 模型使用 SWINTransformer 从 log-Mel 频谱图输入中获取音频特征，并使用 RoBERTa 模型获取文本特征。文本和音频特征都被投影到具有相同维度的潜在空间。投影的音频和文本特征之间的点积然后用作相似性得分。

该论文的摘要如下

对比学习在多模态表示学习领域取得了显著成功。在本文中，我们提出了一个对比语言-音频预训练的流程，通过将音频数据与自然语言描述相结合来开发音频表示。为了实现这一目标，我们首先发布了 LAION-Audio-630K，这是一个来自不同数据源的包含 633,526 个音频-文本对的大型集合。其次，我们通过考虑不同的音频编码器和文本编码器，构建了一个对比语言-音频预训练模型。我们将特征融合机制和关键词到标题的增强融入到模型设计中，以进一步使模型能够处理可变长度的音频输入并提高性能。第三，我们进行了全面的实验，以评估我们的模型在三个任务中的表现：文本到音频检索、零样本音频分类和监督音频分类。结果表明，我们的模型在文本到音频检索任务中取得了优异的性能。在音频分类任务中，该模型在零样本设置中取得了最先进的性能，并且能够在非零样本设置中获得与模型结果相当的性能。LAION-Audio-6

该模型由 Younes Belkada 和 Arthur Zucker 贡献。原始代码可以在这里找到。

ClapConfig

class transformers.ClapConfig

< 源代码 >

( text_config = None audio_config = None logit_scale_init_value = 14.285714285714285 projection_dim = 512 projection_hidden_act = 'relu' initializer_factor = 1.0 **kwargs )

参数

text_config (dict, optional) — 用于初始化 ClapTextConfig 的配置选项字典。
audio_config (dict, optional) — 用于初始化 ClapAudioConfig 的配置选项字典。
projection_dim (int, optional, defaults to 512) — 文本和音频投影层的维度。
projection_hidden_act (str, optional, defaults to "relu") — 投影层的激活函数。
initializer_factor (float, optional, defaults to 1.0) — 用于缩放模型权重初始化的因子。
kwargs (optional) — 关键字参数字典。

ClapConfig 是用于存储 ClapModel 配置的配置类。它用于根据指定的参数实例化 CLAP 模型，定义文本模型和音频模型配置。使用默认值实例化配置将产生与 CLAP laion/clap-htsat-fused 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例

>>> from transformers import ClapConfig, ClapModel

>>> # Initializing a ClapConfig with laion-ai/base style configuration
>>> configuration = ClapConfig()

>>> # Initializing a ClapModel (with random weights) from the laion-ai/base style configuration
>>> model = ClapModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

>>> # We can also initialize a ClapConfig from a ClapTextConfig and a ClapAudioConfig
>>> from transformers import ClapTextConfig, ClapAudioConfig

>>> # Initializing a ClapText and ClapAudioConfig configuration
>>> config_text = ClapTextConfig()
>>> config_audio = ClapAudioConfig()

>>> config = ClapConfig.from_text_audio_configs(config_text, config_audio)

from_text_audio_configs

< 源代码 >

( text_config: ClapTextConfig audio_config: ClapAudioConfig **kwargs ) → ClapConfig

ClapConfig

配置对象的一个实例

从 clap 文本模型配置和 clap 音频模型配置实例化 ClapConfig（或派生类）。

ClapTextConfig

class transformers.ClapTextConfig

< 源代码 >

( vocab_size = 50265 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 514 type_vocab_size = 1 initializer_factor = 1.0 layer_norm_eps = 1e-12 projection_dim = 512 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 position_embedding_type = 'absolute' use_cache = True projection_hidden_act = 'relu' **kwargs )

参数

vocab_size (int, optional, defaults to 30522) — CLAP 模型的词汇表大小。定义了调用 ClapTextModel 时传递的 inputs_ids 可以表示的不同 tokens 的数量。
hidden_size (int, optional, defaults to 768) — 编码器层和池化层的维度。
num_hidden_layers (int, optional, defaults to 12) — Transformer 编码器中的隐藏层数。
num_attention_heads (int, optional, defaults to 12) — Transformer 编码器中每个注意力层的注意力头数。
intermediate_size (int, optional, defaults to 3072) — Transformer 编码器中“中间”层（通常称为前馈层）的维度。
hidden_act (str 或 Callable, optional, defaults to "relu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果为字符串，则支持 "relu", "relu", "silu" 和 "relu_new"。
hidden_dropout_prob (float, optional, defaults to 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。
attention_probs_dropout_prob (float, optional, defaults to 0.1) — 注意力概率的 dropout 比率。
max_position_embeddings (int, optional, defaults to 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一（例如，512 或 1024 或 2048）。
type_vocab_size (int, optional, defaults to 2) — 调用 ClapTextModel 时传递的 token_type_ids 的词汇表大小。
layer_norm_eps (float, optional, defaults to 1e-12) — 层归一化层使用的 epsilon 值。
position_embedding_type (str, optional, defaults to "absolute") — 位置嵌入的类型。从 "absolute", "relative_key", "relative_key_query" 中选择一个。对于位置嵌入，使用 "absolute"。有关 "relative_key" 的更多信息，请参阅 Self-Attention with Relative Position Representations (Shaw et al.)。有关 "relative_key_query" 的更多信息，请参阅 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的方法 4。
is_decoder (bool, optional, defaults to False) — 模型是否用作解码器。如果为 False，则模型用作编码器。
use_cache (bool, optional, defaults to True) — 模型是否应返回上次的键/值注意力（并非所有模型都使用）。仅当 config.is_decoder=True 时相关。
projection_hidden_act (str, optional, defaults to "relu") — 投影层中的非线性激活函数（函数或字符串）。如果为字符串，则支持 "gelu", "relu", "silu" 和 "gelu_new"。
projection_dim (int, optional, defaults to 512) — ClapTextModelWithProjection 的投影头的维度。

这是用于存储 ClapTextModel 配置的配置类。它用于根据指定的参数实例化 CLAP 模型，定义模型架构。使用默认值实例化配置将产生与 CLAP calp-hsat-fused 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例

>>> from transformers import ClapTextConfig, ClapTextModel

>>> # Initializing a CLAP text configuration
>>> configuration = ClapTextConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = ClapTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

CLAP

概览

ClapConfig

class transformers.ClapConfig

from_text_audio_configs

ClapTextConfig

class transformers.ClapTextConfig

ClapAudioConfig

class transformers.ClapAudioConfig

ClapFeatureExtractor

class transformers.ClapFeatureExtractor

to_dict

ClapProcessor

class transformers.ClapProcessor

batch_decode

decode

ClapModel

class transformers.ClapModel

forward

get_text_features

get_audio_features

ClapTextModel

class transformers.ClapTextModel

forward

ClapTextModelWithProjection

class transformers.ClapTextModelWithProjection

forward

ClapAudioModel

class transformers.ClapAudioModel

forward

ClapAudioModelWithProjection

class transformers.ClapAudioModelWithProjection

forward