shap.maskers.Text

class shap.maskers.Text(tokenizer=None, mask_token=None, collapse_mask_token='auto', output_type='string')[源代码]

这根据给定的分词器屏蔽掉标记。

被遮蔽的变量是

output_type : “string” (默认) 或 “token_ids”

__init__(tokenizer=None, mask_token=None, collapse_mask_token='auto', output_type='string')[源代码]

构建一个新的文本掩码器,给定一个可选的传递的分词器。

参数:
分词器可调用对象或无

用于在掩码过程中拆分字符串的分词器。传递的分词器必须支持 HuggingFace Transformers PreTrainedTokenizerBase API 的最小子集。这个最小子集意味着分词器必须返回一个包含 ‘input_ids’ 的字典,然后在同一个字典中包含一个 ‘offset_mapping’ 条目,或者提供一个 .convert_ids_to_tokens 或 .decode 方法。

mask_token字符串, 整数, 或 None

用于遮蔽字符串部分的子字符串或整数令牌ID。如果为None,它将使用分词器的.mask_token属性(如果已定义),或者如果分词器没有.mask_token属性,则使用”…”。

collapse_mask_tokenTrue, False, 或 “auto”

如果为真,当多个连续的标记被屏蔽时,只使用一个屏蔽标记来替换整个原始标记序列。

方法

__init__([tokenizer, mask_token, ...])

构建一个新的文本掩码器,给定一个可选的传递的分词器。

clustering(s)

计算给定字符串的词元聚类。

data_transform(s)

调用解释器以允许我们将数据转换为更好地匹配掩码(这里意味着分词)。

feature_names(s)

给定输入字符串中每个掩码位置的特征名称。

invariants(s)

给定输入字符串中每个掩码位置的特征名称。

load(in_file[, instantiate])

从文件流加载文本掩码器。

mask_shapes(s)

我们期望的掩码形状。

save(out_file)

将文本遮罩保存到文件流中。

shape(s)

我们作为掩码器返回的形状。

token_segments(s)

返回给定字符串中每个标记关联的子字符串。

clustering(s)[源代码]

计算给定字符串的词元聚类。

data_transform(s)[源代码]

调用解释器以允许我们将数据转换为更好地匹配掩码(这里意味着分词)。

feature_names(s)[源代码]

给定输入字符串中每个掩码位置的特征名称。

invariants(s)[源代码]

给定输入字符串中每个掩码位置的特征名称。

classmethod load(in_file, instantiate=True)[源代码]

从文件流加载文本掩码器。

mask_shapes(s)[源代码]

我们期望的掩码形状。

save(out_file)[源代码]

将文本遮罩保存到文件流中。

shape(s)[源代码]

我们作为掩码器返回的形状。

注意我们只返回一个样本,因此没有期望平均。

token_segments(s)[源代码]

返回给定字符串中每个标记关联的子字符串。