Transformers 文档

MADLAD-400

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

MADLAD-400

PyTorch TensorFlow Flax

概述

MADLAD-400 模型在论文 [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](MADLAD-400: A Multilingual And Document-Level Large Audited Dataset) 中发布。

该论文的摘要如下

我们介绍了 MADLAD-400,这是一个基于 CommonCrawl 的手动审核的、通用领域的 3T 令牌单语数据集,涵盖 419 种语言。我们讨论了自我审核 MADLAD-400 揭示的局限性,以及数据审核在数据集创建过程中所起的作用。然后,我们使用公开可用的数据,在涵盖 450 多种语言的 2500 亿个令牌上训练并发布了一个 107 亿参数的多语言机器翻译模型,发现它与明显更大的模型相比具有竞争力,并报告了不同领域的结果。此外,我们还训练了一个 80 亿参数的语言模型,并评估了少样本翻译的结果。我们将基线模型 1 提供给研究社区。

此模型由 Juarez Bochi 添加。原始检查点可以在这里找到。

这是一个支持多种低资源语言的机器翻译模型,与明显更大的模型相比具有竞争力。

可以直接使用 MADLAD-400 权重,而无需微调模型

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")

>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']

谷歌发布了以下变体

原始检查点可以在这里找到。

有关所有 API 参考、代码示例和笔记本,请参阅 T5 的文档页面。有关 MADLAD-400 的训练和评估的更多详细信息,请参阅模型卡。

< > 在 GitHub 上更新