SeamlessM4T

概述

SeamlessM4T 模型是由 Meta AI 的 Seamless Communication 团队在 SeamlessM4T — 大规模多语种和多模态机器翻译中提出的。

这是该模型的版本 1 发布。有关更新的版本 2 发布，请参阅 Seamless M4T v2 文档。

SeamlessM4T 是一系列旨在提供高质量翻译的模型集合，使来自不同语言社区的人们能够通过语音和文本轻松交流。

SeamlessM4T 无需依赖单独的模型即可实现多项任务

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
文本到语音翻译 (T2ST)
文本到文本翻译 (T2TT)
自动语音识别 (ASR)

SeamlessM4TModel 可以执行上述所有任务，但每个任务也有其自己的专用子模型。

以下是论文的摘要

创建巴别鱼（一种可以帮助个人在任意两种语言之间翻译语音的工具）需要什么？虽然最近基于文本的模型的突破已将机器翻译的覆盖范围扩展到 200 多种语言，但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说，传统的语音到语音翻译系统依赖于逐步执行翻译的级联系统，这使得高性能的统一系统遥不可及。为了解决这些差距，我们推出了 SeamlessM4T，这是一个单一模型，支持多达 100 种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译和自动语音识别。为了构建这个模型，我们使用了 100 万小时的开放语音音频数据，通过 w2v-BERT 2.0 学习自监督语音表示。随后，我们创建了一个自动对齐的语音翻译多模态语料库。经过过滤并与人工标记和伪标记数据相结合，我们开发了第一个能够进行英语和多种语言之间语音和文本互译的多语言系统。在 FLEURS 上，SeamlessM4T 为多种目标语言的翻译树立了新标准，在直接语音到文本翻译中实现了比以前的 SOTA 提高 20% BLEU。与强大的级联模型相比，SeamlessM4T 在语音到文本翻译中提高了 1.3 BLEU 点的英语翻译质量，在语音到语音翻译中提高了 2.6 ASR-BLEU 点。经过鲁棒性测试，与当前的 SOTA 模型相比，我们的系统在语音到文本任务中对背景噪声和说话人变化的表现更好。至关重要的是，我们评估了 SeamlessM4T 的性别偏见和添加的毒性，以评估翻译安全性。最后，这项工作中的所有贡献都是开源的，可以在 https://github.com/facebookresearch/seamless_communication 访问

用法

首先，加载处理器和模型的检查点

>>> from transformers import AutoProcessor, SeamlessM4TModel

>>> processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
>>> model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")

您可以无缝地在文本或音频上使用此模型，以生成翻译后的文本或翻译后的音频。

以下是如何使用处理器处理文本和音频

>>> # let's load an audio sample from an Arabic speech corpus
>>> from datasets import load_dataset
>>> dataset = load_dataset("arabic_speech_corpus", split="test", streaming=True, trust_remote_code=True)
>>> audio_sample = next(iter(dataset))["audio"]

>>> # now, process it
>>> audio_inputs = processor(audios=audio_sample["array"], return_tensors="pt")

>>> # now, process some English test as well
>>> text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")

语音

SeamlessM4TModel 可以无缝地生成文本或语音，只需进行少量或无需更改。让我们以俄语语音翻译为目标

>>> audio_array_from_text = model.generate(**text_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
>>> audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()

基本上使用相同的代码，我已经将英语文本和阿拉伯语语音翻译成俄语语音样本。

文本

同样，您可以使用相同的模型从音频文件或文本生成翻译后的文本。您只需将 generate_speech=False 传递给 SeamlessM4TModel.generate()。这次，让我们翻译成法语。

>>> # from audio
>>> output_tokens = model.generate(**audio_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_audio = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)

>>> # from text
>>> output_tokens = model.generate(**text_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_text = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)

提示

1. 使用专用模型

SeamlessM4TModel 是用于生成语音和文本的顶级 transformers 模型，但您也可以使用执行任务而无需额外组件的专用模型，从而减少内存占用。例如，您可以将音频到音频生成代码段替换为专用于 S2ST 任务的模型，其余代码完全相同

>>> from transformers import SeamlessM4TForSpeechToSpeech
>>> model = SeamlessM4TForSpeechToSpeech.from_pretrained("facebook/hf-seamless-m4t-medium")

或者您可以将文本到文本生成代码段替换为专用于 T2TT 任务的模型，您只需删除 generate_speech=False 即可。

>>> from transformers import SeamlessM4TForTextToText
>>> model = SeamlessM4TForTextToText.from_pretrained("facebook/hf-seamless-m4t-medium")

请随时尝试 SeamlessM4TForSpeechToText 和 SeamlessM4TForTextToSpeech。

2. 更改说话人身份

您可以使用 spkr_id 参数更改用于语音合成的说话人。某些 spkr_id 对于某些语言的效果更好！

3. 更改生成策略

您可以对语音和文本生成使用不同的生成策略，例如 .generate(input_ids=input_ids, text_num_beams=4, speech_do_sample=True)，它将连续对文本模型执行束搜索解码，并对语音模型执行多项式采样。

4. 同时生成语音和文本

将 return_intermediate_token_ids=True 与 SeamlessM4TModel 一起使用可同时返回语音和文本！

模型架构

SeamlessM4T 具有通用的架构，可以流畅地处理文本和语音的顺序生成。此设置包括两个序列到序列 (seq2seq) 模型。第一个模型将输入模态翻译成翻译后的文本，而第二个模型从翻译后的文本生成语音标记，称为“单元标记”。

每种模态都有其自己专用的编码器，具有独特的架构。此外，对于语音输出，在第二个 seq2seq 模型之上放置了一个受 HiFi-GAN 架构启发的声码器。

以下是生成过程的工作原理

输入文本或语音通过其特定的编码器进行处理。
解码器以所需的语言创建文本标记。
如果需要语音生成，则遵循标准编码器-解码器结构的第二个 seq2seq 模型会生成单元标记。
然后，这些单元标记将通过最终的声码器以生成实际的语音。

此模型由 ylacombe 贡献。原始代码可以在此处找到。

SeamlessM4TModel

class transformers.SeamlessM4TModel

< 源代码 >

( config current_modality = 'text' )

参数

config (~SeamlessM4TConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。
current_modality (str, 可选, 默认为 "text") — 默认模态。用于初始化模型。

原始 SeamlessM4T 模型转换器，可用于所有可用任务 (S2ST、S2TT、T2TT、T2ST)。此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档以了解与常规用法和行为相关的所有事项。

generate

< 源代码 >

( input_ids: typing.Optional[torch.Tensor] = None input_features: typing.Optional[torch.Tensor] = None return_intermediate_token_ids: typing.Optional[bool] = None tgt_lang: typing.Optional[str] = None spkr_id: typing.Optional[int] = 0 generate_speech: typing.Optional[bool] = True **kwargs ) → Union[SeamlessM4TGenerationOutput, Tuple[Tensor], ModelOutput]

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 词汇表中输入序列 tokens 的索引。

索引可以使用 SeamlessM4TTokenizer 或 SeamlessM4TProcessor 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 了解详情。

什么是输入 IDs？
input_features (torch.FloatTensor，形状为 (batch_size, sequence_length, num_banks)，可选) — 输入音频特征。这应该由 SeamlessM4TFeatureExtractor 类或 SeamlessM4TProcessor 类返回。请参阅 SeamlessM4TFeatureExtractor.call() 了解详情。
return_intermediate_token_ids (bool，可选) — 如果为 True，还会返回中间生成的文本和单元 tokens。如果您还想获取音频旁边的翻译文本，请设置为 True。请注意，如果 generate_speech=True，此参数将被忽略。
tgt_lang (str，可选) — 用作翻译目标语言的语言。
spkr_id (int，可选，默认为 0) — 用于语音合成的说话人 ID。必须低于 config.vocoder_num_spkrs。
generate_speech (bool，可选，默认为 True) — 如果为 False，则仅返回文本 tokens，并且不会生成语音。
kwargs (可选) — 将传递给 GenerationMixin.generate() 的剩余关键字参数字典。关键字参数有两种类型：
- 不带前缀的关键字参数将作为 **kwargs 输入到每个子模型的 generate 方法中，但 decoder_input_ids 除外，它将仅通过文本组件传递。
- 带有 text_ 或 speech_ 前缀的关键字参数将分别作为文本模型和语音模型的 generate 方法的输入。它优先于没有前缀的关键字。
这意味着您可以例如为一个生成指定生成策略，但不为另一个生成指定生成策略。

Union[SeamlessM4TGenerationOutput, Tuple[Tensor], ModelOutput]

如果 generate_speech 和 return_intermediate_token_ids，则返回 SeamlessM4TGenerationOutput。
如果 generate_speech 且不是 return_intermediate_token_ids，则返回由形状为 (batch_size, sequence_length) 的波形和提供每个样本长度的 waveform_lengths 组成的元组。
如果 generate_speech=False，它将返回 ModelOutput。

生成翻译后的 token IDs 和/或翻译后的音频波形。

此方法依次调用两个不同子模型的 .generate 函数。您可以在两个不同的级别指定关键字参数：将传递给两个模型的一般参数，或将传递给其中一个模型的带前缀的参数。

例如，调用 .generate(input_ids=input_ids, num_beams=4, speech_do_sample=True) 将在文本模型上依次执行束搜索解码，并在语音模型上执行多项式束搜索采样。

有关生成策略和代码示例的概述，请查看以下指南。

Transformers

SeamlessM4T

概述

用法

语音

文本

提示

1. 使用专用模型

2. 更改说话人身份

3. 更改生成策略

4. 同时生成语音和文本

模型架构

SeamlessM4TModel

class transformers.SeamlessM4TModel

generate

SeamlessM4TForTextToSpeech

class transformers.SeamlessM4TForTextToSpeech

generate

SeamlessM4TForSpeechToSpeech

class transformers.SeamlessM4TForSpeechToSpeech

generate

SeamlessM4TForTextToText

class transformers.SeamlessM4TForTextToText

forward

generate

SeamlessM4TForSpeechToText

class transformers.SeamlessM4TForSpeechToText

forward

generate

SeamlessM4TConfig

class transformers.SeamlessM4TConfig

SeamlessM4TTokenizer

class transformers.SeamlessM4TTokenizer

__call__

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

SeamlessM4TTokenizerFast

class transformers.SeamlessM4TTokenizerFast

__call__

SeamlessM4TFeatureExtractor

class transformers.SeamlessM4TFeatureExtractor

__call__

SeamlessM4TProcessor

class transformers.SeamlessM4TProcessor

__call__

SeamlessM4TCodeHifiGan

class transformers.SeamlessM4TCodeHifiGan

forward

SeamlessM4THifiGan

class transformers.SeamlessM4THifiGan

forward

SeamlessM4TTextToUnitModel

class transformers.SeamlessM4TTextToUnitModel

SeamlessM4TTextToUnitForConditionalGeneration

class transformers.SeamlessM4TTextToUnitForConditionalGeneration

forward

call

call

call

call