Transformers 文档

MADLAD-400

Hugging Face's logo
加入Hugging Face社区

并获得增强的文档体验

开始使用

MADLAD-400

概述

MADLAD-400 模型在论文 [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](MADLAD-400:一个多语言和文档级大型审计数据集)中发布。

论文摘要如下:

我们介绍了 MADLAD-400,这是一个基于 CommonCrawl 的、手动审计的、通用领域 3T 词元单语数据集,涵盖 419 种语言。我们讨论了 MADLAD-400 自我审计揭示的局限性,以及数据审计在数据集创建过程中的作用。然后,我们使用公开可用的数据,在一个包含 2500 亿个词元、涵盖 450 多种语言的多语言机器翻译模型上训练并发布了一个 107 亿参数模型,并发现它与规模更大的模型具有竞争力,并在不同领域报告了结果。此外,我们训练了一个 80 亿参数的语言模型,并评估了其在少样本翻译方面的结果。我们向研究界提供了基线模型 1。

此模型由 Juarez Bochi 添加。原始检查点可以在这里找到 这里

这是一个支持多种低资源语言的机器翻译模型,并且与规模更大的模型具有竞争力。

可以直接使用 MADLAD-400 权重,无需微调模型。

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")

>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']

Google 发布了以下变体:

原始检查点可以在这里找到 这里

有关所有 API 参考、代码示例和笔记本,请参阅 T5 的文档页面。有关 MADLAD-400 的训练和评估的更多详细信息,请参阅模型卡片。

< > GitHub 更新