Transformers 文档
MADLAD-400
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
MADLAD-400
概述
MADLAD-400 模型发布于论文 [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](MADLAD-400: A Multilingual And Document-Level Large Audited Dataset)。
论文摘要如下:
我们介绍了 MADLAD-400,一个基于 CommonCrawl 的、经过人工审核的、通用领域的 3T 词元单语数据集,涵盖了 419 种语言。我们讨论了自我审核 MADLAD-400 时发现的局限性,以及数据审核在数据集创建过程中的作用。然后,我们使用公开数据训练并发布了一个包含 10.7B 参数的多语言机器翻译模型,该模型使用了 2500 亿个词元,覆盖了超过 450 种语言,并发现其与更大规模的模型相比具有竞争力,我们还报告了其在不同领域的结果。此外,我们训练了一个 8B 参数的语言模型,并评估了其在少样本翻译上的结果。我们将这些基线模型 1 提供给研究社区。
此模型由 Juarez Bochi 添加。原始模型检查点可以在此处找到。
这是一个支持许多低资源语言的机器翻译模型,其性能与规模大得多的模型相当。
用户可以直接使用 MADLAD-400 的权重,而无需对模型进行微调。
>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")
>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']
Google 发布了以下变体:
原始模型检查点可以在此处找到。
有关所有 API 参考、代码示例和笔记本,请参阅 T5 的文档页面。有关 MADLAD-400 训练和评估的更多详细信息,请参阅模型卡。