Transformers 文档

BARTpho

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

该模型于2021-09-20发布,并于2021-10-18添加到Hugging Face Transformers。

PyTorch

BARTpho

BARTpho 是一个大规模的越南语序列到序列模型。它提供了基于单词和基于音节的版本。该模型基于 BART large 架构及其去噪预训练。

您可以在 VinAI 组织下找到所有原始检查点。

此模型由 dqnguyen 贡献。查看右侧边栏,了解如何将 BARTpho 应用于不同的语言任务。

下面的示例演示了如何使用 PipelineAutoModel 类来总结文本。

流水线
自动模型
Transformers CLI
import torch
from transformers import pipeline

pipeline = pipeline(
   task="summarization",
   model="vinai/bartpho-word",
   dtype=torch.float16,
   device=0
)

text = """
Quang tổng hợp hay gọi tắt là quang hợp là quá trình thu nhận và chuyển hóa năng lượng ánh sáng Mặt trời của thực vật,
tảo và một số vi khuẩn để tạo ra hợp chất hữu cơ phục vụ bản thân cũng như làm nguồn thức ăn cho hầu hết các sinh vật
trên Trái Đất. Quang hợp trong thực vật thường liên quan đến chất tố diệp lục màu xanh lá cây và tạo ra oxy như một sản phẩm phụ
"""
pipeline(text)

注意事项

  • BARTpho 使用 BART 的大架构,并在编码器和解码器之上增加了一个额外的层归一化层。BART 特定的类应该被 mBART 特定的类替换。
  • 此实现仅通过 monolingual_vocab_file 文件处理分词。这是从多语言词汇表中提取的越南语特定类型。如果您想将此分词器用于其他语言,请将 monolingual_vocab_file 替换为针对您的目标语言的专用文件。

BartphoTokenizer

class transformers.BartphoTokenizer

< >

( vocab_file monolingual_vocab_file bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' sp_model_kwargs: dict[str, typing.Any] | None = None **kwargs )

参数

  • vocab_file (str) — 词汇表文件路径。此词汇表是来自多语言 XLM-RoBERTa 的预训练 SentencePiece 模型,也用于 mBART,包含 250K 个类型。
  • monolingual_vocab_file (str) — 单语词汇表文件路径。此单语词汇表包含从 250K 类型多语言词汇表 vocab_file 中提取的越南语专用类型。
  • bos_token (str, optional, defaults to "<s>") — 在预训练期间使用的序列开始标记。可用作序列分类标记。

    构建带有特殊标记的序列时,用于序列开始的不是此标记。实际使用的标记是 cls_token

  • eos_token (str, optional, defaults to "</s>") — 序列结束标记。

    构建带有特殊标记的序列时,用于序列结束的不是此标记。实际使用的标记是 sep_token

  • sep_token (str, optional, defaults to "</s>") — 分隔符标记,用于构建多序列组成的序列,例如用于序列分类的两个序列,或用于文本和问题的问答。它也是用特殊标记构建的序列的最后一个标记。
  • cls_token (str, optional, defaults to "<s>") — 分类器标记,用于序列分类(对整个序列进行分类,而不是逐个标记分类)。它是用特殊标记构建的序列的第一个标记。
  • unk_token (str, optional, defaults to "<unk>") — 未知标记。无法转换为 ID 的标记将被替换为该标记。
  • pad_token (str, optional, defaults to "<pad>") — 填充标记,例如在批处理不同长度的序列时使用。
  • mask_token (str, optional, defaults to "<mask>") — 掩码标记,用于掩盖值。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
  • sp_model_kwargs (dict, optional) — 将传递给 SentencePieceProcessor.__init__() 方法。 SentencePiece 的 Python 包装器 可用于设置,除其他外:

    • enable_sampling:启用子词正则化。

    • nbest_size:用于 unigram 的采样参数。对 BPE-Dropout 无效。

      • nbest_size = {0,1}:不执行采样。
      • nbest_size > 1:从 nbest_size 结果中进行采样。
      • nbest_size < 0:假设 nbest_size 是无限的,并使用前向过滤和后向采样算法从所有假设(lattice)中进行采样。
    • alpha:用于 unigram 采样的平滑参数,以及 BPE-dropout 的合并操作的 dropout 概率。

  • sp_model (SentencePieceProcessor) — 用于所有转换(字符串、标记和 ID)的 SentencePiece 处理器。

改编自 XLMRobertaTokenizer。基于 SentencePiece

此分词器继承自 PreTrainedTokenizer,其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。

build_inputs_with_special_tokens

< >

( token_ids_0: list token_ids_1: list[int] | None = None ) list[int]

参数

  • token_ids_0 (list[int]) — 将添加特殊标记的 ID 列表。
  • token_ids_1 (list[int], optional) — 序列对的可选第二个 ID 列表。

返回

list[int]

带有适当特殊标记的输入ID列表。

从用于序列分类任务的序列或序列对构建模型输入,通过连接并添加特殊标记。BARTPho 序列格式如下:

  • 单个序列:<s> X </s>
  • 序列对:<s> A </s></s> B </s>

create_token_type_ids_from_sequences

< >

( token_ids_0: list token_ids_1: list[int] | None = None ) list[int]

参数

  • token_ids_0 (list[int]) — ID 列表。
  • token_ids_1 (list[int], optional) — 序列对的可选第二个 ID 列表。

返回

list[int]

零列表。

从两个序列创建掩码,用于序列对分类任务,通过连接并添加特殊标记。BARTPho 不使用 token type ids,因此返回零列表。

get_special_tokens_mask

< >

( token_ids_0: list token_ids_1: list[int] | None = None already_has_special_tokens: bool = False ) list[int]

参数

  • token_ids_0 (list[int]) — ID 列表。
  • token_ids_1 (list[int], optional) — 序列对的可选第二个 ID 列表。
  • already_has_special_tokens (bool, optional, defaults to False) — 标记列表是否已为模型格式化特殊标记。

返回

list[int]

一个范围为 [0, 1] 的整数列表:1 表示特殊标记,0 表示序列标记。

从没有添加特殊标记的标记列表中检索序列ID。此方法在使用分词器prepare_for_model方法添加特殊标记时调用。

get_vocab

< >

( )

重写以使用 fairseq 词汇表

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.