Transformers 文档

分词器

Transformers

分词器

分词器负责为模型准备输入。该库包含所有模型的分词器。大多数分词器有两种版本：完整的Python实现和基于Rust库🤗 Tokenizers的“快速”实现。“快速”实现允许：

特别是在进行批量分词时，速度显著提升
用于在原始字符串（字符和单词）和标记空间之间进行映射的附加方法（例如，获取包含给定字符的标记的索引或与给定标记对应的字符范围）。

基类 PreTrainedTokenizer 和 PreTrainedTokenizerFast 实现了将字符串输入编码为模型输入的常见方法（见下文），并且可以从本地文件或目录实例化/保存 Python 和 “Fast” 分词器，或者从库提供的预训练分词器（从 HuggingFace 的 AWS S3 仓库下载）实例化/保存。它们都依赖于 PreTrainedTokenizerBase，其中包含了常见方法，以及 SpecialTokensMixin。

PreTrainedTokenizer 和 PreTrainedTokenizerFast 因此实现了使用所有分词器的主要方法：

分词（将字符串拆分为子词标记字符串），将标记字符串转换为ID并转换回来，以及编码/解码（即分词并转换为整数）。
以独立于底层结构（BPE、SentencePiece…）的方式向词汇表中添加新标记。
管理特殊标记（如掩码、句子开头等）：添加它们，将它们分配给分词器中的属性以便于访问，并确保它们在分词过程中不会被拆分。

BatchEncoding 保存了 PreTrainedTokenizerBase 编码方法（__call__, encode_plus 和 batch_encode_plus）的输出，并且是从 Python 字典派生的。当分词器是纯 Python 分词器时，这个类的行为就像一个标准的 Python 字典，并保存了由这些方法计算的各种模型输入（input_ids, attention_mask…）。当分词器是“快速”分词器时（即由 HuggingFace tokenizers 库支持），这个类还提供了几种高级对齐方法，可以用于在原始字符串（字符和单词）和标记空间之间进行映射（例如，获取包含给定字符的标记的索引或与给定标记对应的字符范围）。

多模态分词器

除此之外，每个分词器都可以是一个“多模态”分词器，这意味着分词器将包含所有相关的特殊标记作为分词器属性的一部分，以便更容易访问。例如，如果分词器是从像LLaVA这样的视觉语言模型加载的，你将能够访问tokenizer.image_token_id来获取用作占位符的特殊图像标记。

要为任何类型的tokenizer启用额外的特殊标记，您必须添加以下行并保存tokenizer。额外的特殊标记不必与模态相关，可以是模型经常需要访问的任何内容。在下面的代码中，位于output_dir的tokenizer将直接访问三个额外的特殊标记。

vision_tokenizer = AutoTokenizer.from_pretrained(
    "llava-hf/llava-1.5-7b-hf",
    extra_special_tokens={"image_token": "<image>", "boi_token": "<image_start>", "eoi_token": "<image_end>"}
)
print(vision_tokenizer.image_token, vision_tokenizer.image_token_id)
("<image>", 32000)

Transformers

分词器

多模态分词器

预训练分词器

类 transformers.PreTrainedTokenizer

__call__

add_tokens

add_special_tokens

apply_chat_template

batch_decode

解码

编码

push_to_hub

convert_ids_to_tokens

convert_tokens_to_ids

get_added_vocab

num_special_tokens_to_add

prepare_for_tokenization

tokenize

PreTrainedTokenizerFast

类 transformers.PreTrainedTokenizerFast

__call__

add_tokens

add_special_tokens

apply_chat_template

batch_decode

解码

编码

push_to_hub

convert_ids_to_tokens

convert_tokens_to_ids

get_added_vocab

num_special_tokens_to_add

set_truncation_and_padding

train_new_from_iterator

BatchEncoding

类 transformers.BatchEncoding

char_to_token

char_to_word

convert_to_tensors

sequence_ids

到

token_to_chars

token_to_sequence

token_to_word

tokens

word_ids

word_to_chars

word_to_tokens

单词

call

call