关于Keras 入门指南 开发者指南 Keras 3 API 文档 模型 API 层 API 回调API 操作API 优化器 度量标准 损失函数 数据加载 内置小型数据集 Keras 应用程序 混合精度 多设备分布 RNG API 实用工具 Keras调优器 KerasCV Keras自然语言处理(KerasNLP) 预训练模型 模型API 分词器 预处理层 模型层 采样器 指标 Keras 2 API 文档 代码示例 KerasTuner:超参数调优 KerasCV:计算机视觉工作流 KerasNLP:自然语言工作流程
► Keras 3 API 文档 / Keras自然语言处理(KerasNLP) / KerasNLP 分词器

KerasNLP 分词器

分词器将原始字符串输入转换为适合 Keras Embedding 层的整数输入。 它们还可以将预测的整数序列转换回原始字符串输出。

所有分词器都是 keras_nlp.tokenizers.Tokenizer 的子类,而它又是 keras.layers.Layer 的子类。分词器通常应在 tf.data.Dataset.map 中应用于训练,并可以包含在 keras.Model 中进行推理。

WordPiece分词器

  • WordPieceTokenizer class
  • tokenize method
  • detokenize method
  • get_vocabulary method
  • vocabulary_size method
  • token_to_id method
  • id_to_token method

SentencePiece分词器

  • SentencePieceTokenizer class
  • tokenize method
  • detokenize method
  • get_vocabulary method
  • vocabulary_size method
  • token_to_id method
  • id_to_token method

字节对标记器

  • BytePairTokenizer class
  • tokenize method
  • detokenize method
  • get_vocabulary method
  • vocabulary_size method
  • token_to_id method
  • id_to_token method

字节分词器

  • ByteTokenizer class
  • tokenize method
  • detokenize method
  • get_vocabulary method
  • vocabulary_size method
  • token_to_id method
  • id_to_token method

Unicode码点分词器

  • UnicodeCodepointTokenizer class
  • tokenize method
  • detokenize method
  • get_vocabulary method
  • vocabulary_size method
  • token_to_id method
  • id_to_token method

计算词片词汇表函数

  • compute_word_piece_vocabulary function

计算句子片段原型函数

  • compute_sentence_piece_proto function
KerasNLP 分词器
WordPiece分词器
SentencePiece分词器
字节对标记器
字节分词器
Unicode码点分词器
计算词片词汇表函数
计算句子片段原型函数
Terms | Privacy