BertJapanese
概述
基于日语文本训练的BERT模型。
有两种不同的分词方法的模型:
要使用MecabTokenizer,你应该pip install transformers["ja"]
(或者如果你从源代码安装,使用pip install -e .["ja"]
)来安装依赖项。
使用MeCab和WordPiece分词的模型示例:
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> bertjapanese = AutoModel.from_pretrained("cl-tohoku/bert-base-japanese")
>>> tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese")
>>> ## Input Japanese Text
>>> line = "吾輩は猫である。"
>>> inputs = tokenizer(line, return_tensors="pt")
>>> print(tokenizer.decode(inputs["input_ids"][0]))
[CLS] 吾輩 は 猫 で ある 。 [SEP]
>>> outputs = bertjapanese(**inputs)
使用字符标记化模型的示例:
>>> bertjapanese = AutoModel.from_pretrained("cl-tohoku/bert-base-japanese-char")
>>> tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-char")
>>> ## Input Japanese Text
>>> line = "吾輩は猫である。"
>>> inputs = tokenizer(line, return_tensors="pt")
>>> print(tokenizer.decode(inputs["input_ids"][0]))
[CLS] 吾 輩 は 猫 で あ る 。 [SEP]
>>> outputs = bertjapanese(**inputs)
该模型由cl-tohoku贡献。
此实现与BERT相同,除了分词方法。有关API参考信息,请参阅BERT文档。
BertJapaneseTokenizer
类 transformers.BertJapaneseTokenizer
< source >( vocab_file spm_file = None do_lower_case = False do_word_tokenize = True do_subword_tokenize = True word_tokenizer_type = 'basic' subword_tokenizer_type = 'wordpiece' never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' mecab_kwargs = None sudachi_kwargs = None jumanpp_kwargs = None **kwargs )
参数
- vocab_file (
str
) — 路径指向一个每行一个词片的词汇文件。 - spm_file (
str
, 可选) — 指向SentencePiece文件的路径(通常具有.spm或.model扩展名),该文件包含词汇表。 - do_lower_case (
bool
, optional, defaults toTrue
) — 是否将输入转换为小写。仅在 do_basic_tokenize=True 时有效。 - do_word_tokenize (
bool
, optional, defaults toTrue
) — 是否进行分词操作. - do_subword_tokenize (
bool
, optional, defaults toTrue
) — 是否进行子词分词. - word_tokenizer_type (
str
, 可选, 默认为"basic"
) — 单词分词器的类型。可从 [“basic”, “mecab”, “sudachi”, “jumanpp”] 中选择。 - subword_tokenizer_type (
str
, 可选, 默认为"wordpiece"
) — 子词分词器的类型。可从 [“wordpiece”, “character”, “sentencepiece”] 中选择。 - mecab_kwargs (
dict
, 可选) — 传递给MecabTokenizer
构造函数的字典。 - sudachi_kwargs (
dict
, 可选) — 传递给SudachiTokenizer
构造函数的字典。 - jumanpp_kwargs (
dict
, 可选) — 传递给JumanppTokenizer
构造函数的字典。
为日语文本构建一个BERT分词器。
此分词器继承自PreTrainedTokenizer,其中包含了大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
通过连接和添加特殊标记,从序列或序列对构建序列分类任务的模型输入。BERT序列的格式如下:
- 单一序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
将一系列标记(字符串)转换为单个字符串。
create_token_type_ids_from_sequences
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
从传递给序列对分类任务的两个序列中创建一个掩码。一个BERT序列
如果 token_ids_1
是 None
,此方法仅返回掩码的第一部分(0s)。
get_special_tokens_mask
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊标记的标记列表中检索序列ID。当使用标记器的prepare_for_model
方法添加特殊标记时,会调用此方法。