Transformers

CANINE

概述

CANINE模型由Jonathan H. Clark、Dan Garrette、Iulia Turc和John Wieting在CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation中提出。这是首批不使用显式分词步骤（如字节对编码（BPE）、WordPiece或SentencePiece）训练Transformer的论文之一。相反，该模型直接在Unicode字符级别进行训练。字符级别的训练不可避免地带来了更长的序列长度，CANINE通过在应用深度Transformer编码器之前使用高效的降采样策略来解决这个问题。

论文的摘要如下：

管道化的自然语言处理系统在很大程度上已被端到端的神经建模所取代，然而几乎所有常用的模型仍然需要一个显式的分词步骤。虽然最近基于数据驱动的子词词典的分词方法比手动设计的分词器更不易出错，但这些技术并不同样适用于所有语言，并且使用任何固定的词汇表可能会限制模型的适应能力。在本文中，我们提出了CANINE，一种直接操作字符序列的神经编码器，无需显式分词或词汇表，并提出了一种预训练策略，该策略可以直接操作字符，或者选择性地使用子词作为软归纳偏差。为了有效且高效地利用其更细粒度的输入，CANINE结合了下采样（减少输入序列长度）和深度Transformer堆栈（编码上下文）。尽管模型参数减少了28%，CANINE在TyDi QA（一个具有挑战性的多语言基准测试）上的F1得分比可比的mBERT模型高出2.8。

该模型由nielsr贡献。原始代码可以在这里找到。

使用提示

CANINE 内部使用了不少于 3 个 Transformer 编码器：2 个“浅层”编码器（仅由单层组成）和 1 个“深层”编码器（即常规的 BERT 编码器）。首先，使用一个“浅层”编码器通过局部注意力对字符嵌入进行上下文处理。接着，在下采样后，应用一个“深层”编码器。最后，在上采样后，使用一个“浅层”编码器生成最终的字符嵌入。有关上采样和下采样的详细信息可以在论文中找到。
CANINE 默认使用最大序列长度为 2048 个字符。可以使用 CanineTokenizer 来为模型准备文本。
分类可以通过在特殊[CLS]标记的最终隐藏状态上放置一个线性层来完成（该标记具有预定义的Unicode代码点）。然而，对于标记分类任务，需要对下采样的标记序列进行上采样，以匹配原始字符序列的长度（即2048）。详细信息可以在论文中找到。

模型检查点：

google/canine-c: 使用自回归字符损失进行预训练， 12层，768隐藏单元，12个头，1.21亿参数（大小约500 MB）。
google/canine-s: 使用子词损失进行预训练，12层，768隐藏单元，12个头，1.21亿参数（大小约500 MB）。

使用示例

CANINE 直接处理原始字符，因此可以在不使用分词器的情况下使用：

>>> from transformers import CanineModel
>>> import torch

>>> model = CanineModel.from_pretrained("google/canine-c")  # model pre-trained with autoregressive character loss

>>> text = "hello world"
>>> # use Python's built-in ord() function to turn each character into its unicode code point id
>>> input_ids = torch.tensor([[ord(char) for char in text]])

>>> outputs = model(input_ids)  # forward pass
>>> pooled_output = outputs.pooler_output
>>> sequence_output = outputs.last_hidden_state

对于批量推理和训练，建议使用分词器（将所有序列填充/截断到相同长度）：

>>> from transformers import CanineTokenizer, CanineModel

>>> model = CanineModel.from_pretrained("google/canine-c")
>>> tokenizer = CanineTokenizer.from_pretrained("google/canine-c")

>>> inputs = ["Life is like a box of chocolates.", "You never know what you gonna get."]
>>> encoding = tokenizer(inputs, padding="longest", truncation=True, return_tensors="pt")

>>> outputs = model(**encoding)  # forward pass
>>> pooled_output = outputs.pooler_output
>>> sequence_output = outputs.last_hidden_state

Transformers

CANINE

概述

使用提示

使用示例

资源

CanineConfig

类 transformers.CanineConfig

CanineTokenizer

类 transformers.CanineTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

CANINE 特定输出

类 transformers.models.canine.modeling_canine.CanineModelOutputWithPooling

CanineModel

类 transformers.CanineModel

前进

CanineForSequenceClassification

类 transformers.CanineForSequenceClassification

前进

CanineForMultipleChoice

类 transformers.CanineForMultipleChoice

前进

CanineForTokenClassification

类 transformers.CanineForTokenClassification

前进

CanineForQuestionAnswering

类 transformers.CanineForQuestionAnswering

前进