Tokenizers 文档

可视化工具

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

可视化工具

Python
Rust
Node

注释

class tokenizers.tools.Annotation

< >

( start: int end: int label: str )

EncodingVisualizer

class tokenizers.tools.EncodingVisualizer

< >

( tokenizer: Tokenizer default_to_notebook: bool = True annotation_converter: Optional = None )

参数

  • tokenizer (Tokenizer) — 一个 tokenizer 实例
  • default_to_notebook (bool) — 默认是否在 notebook 中渲染 html 输出
  • annotation_converter (Callable, *可选的*) — 一个可选的 (lambda) 函数,它接受任何格式的注释并返回一个 Annotation 对象

构建 EncodingVisualizer

__call__

< >

( text: str annotations: List = [] default_to_notebook: Optional = None )

参数

  • text (str) — 要分词的文本
  • annotations (List[Annotation], *可选的*) — 文本的可选注释列表。它可以是 annotation 类,或者如果您使用转换器函数实例化了可视化工具,则可以是任何其他内容
  • default_to_notebook (bool, *可选的*, 默认为 *False*) — 如果为 True,将在 notebook 中渲染 html。否则返回 html 字符串。

构建给定文本的可视化

< > Update on GitHub