用于BERT的模型、分词器和预处理层,如"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"中所述。
有关可用预设的完整列表,请参见 模型页面。