Transformers 文档
MADLAD-400
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
该模型于2023-09-09发布,并于2023-11-28添加到Hugging Face Transformers。
MADLAD-400
概述
MADLAD-400 模型发表在论文 MADLAD-400: A Multilingual And Document-Level Large Audited Dataset 中。
论文摘要如下:
我们介绍了MADLAD-400,一个基于CommonCrawl的手动审计的、通用领域的3万亿token的单语数据集,涵盖419种语言。我们讨论了MADLAD-400的自我审计揭示的局限性,以及数据审计在数据集创建过程中的作用。然后,我们使用公开可用的数据,在涵盖450多种语言的2500亿token上训练并发布了一个107亿参数的多语言机器翻译模型,发现它与参数量大得多的模型相比具有竞争力,并报告了在不同领域的性能。此外,我们还训练了一个80亿参数的语言模型,并评估了其在少样本翻译任务上的表现。我们向研究界开放了基线模型1。
此模型由Juarez Bochi添加。原始检查点可以在这里找到。
这是一个支持多种低资源语言的机器翻译模型,并且与参数量大得多的模型相比具有竞争力。
可以直接使用MADLAD-400的权重,无需微调模型。
>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")
>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']Google 发布了以下变体:
原始检查点可以在这里找到。
在 GitHub 上更新有关所有API参考、代码示例和笔记本,请参阅T5的文档页面。有关MADLAD-400训练和评估的更多详细信息,请参阅模型卡。