分词器文档

可视化器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

可视化器

Python
Rust
Node

Annotation

class tokenizers.tools.Annotation

< >

( start: int end: int label: str )

EncodingVisualizer

class tokenizers.tools.EncodingVisualizer

< >

( tokenizer: Tokenizer default_to_notebook: bool = True annotation_converter: typing.Union[typing.Callable[[typing.Any], tokenizers.tools.visualizer.Annotation], NoneType] = None )

参数

  • tokenizer (Tokenizer) — 分词器实例
  • default_to_notebook (bool) — 是否默认在笔记本中呈现 html 输出
  • annotation_converter (Callable, 可选) — 一个可选的(lambda)函数,它接收任何格式的标注并返回一个 Annotation 对象

构建一个 EncodingVisualizer

__call__

< >

( text: str annotations: typing.List[tokenizers.tools.visualizer.Annotation] = [] default_to_notebook: typing.Optional[bool] = None )

参数

  • text (str) — 要进行分词的文本
  • annotations (List[Annotation], 可选) — 文本的可选标注列表。如果使用转换器函数实例化了可视化器,则标注可以是标注类或任何其他内容
  • default_to_notebook (bool, 可选,默认为 False) — 如果为 True,将在笔记本中呈现 html。否则返回一个 html 字符串。

构建给定文本的可视化效果