BORT

该模型处于维护模式，我们不接受任何更改其代码的新PR。

如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.30.0。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.30.0。

概述

BORT模型由Adrian de Wynter和Daniel J. Perry在Optimal Subarchitecture Extraction for BERT中提出。它是BERT架构参数的最优子集，作者称之为“Bort”。

论文的摘要如下：

我们从Devlin等人（2018年）的BERT架构中提取了一个最优的架构参数子集，通过应用最近在神经架构搜索算法中的突破。这个最优子集，我们称之为“Bort”，明显更小，其有效大小（即不包括嵌入层）为原始BERT-large架构的5.5%，净大小的16%。Bort还能够在288 GPU小时内进行预训练，这是预训练最高性能的BERT参数架构变体RoBERTa-large（Liu等人，2019年）所需时间的1.2%，并且大约是训练BERT-large在同一硬件上所需GPU小时数的世界纪录的33%。它在CPU上的速度也快了7.9倍，并且比其他压缩变体以及一些非压缩变体表现更好：在多个公共自然语言理解（NLU）基准测试中，相对于BERT-large，它获得了0.3%到31%的绝对性能提升。

该模型由stefan-it贡献。原始代码可以在这里找到。

使用提示

BORT的模型架构基于BERT，有关模型的API参考和使用示例，请参阅BERT的文档页面。
BORT 使用 RoBERTa 分词器而不是 BERT 分词器，有关分词器的 API 参考和使用示例，请参阅 RoBERTa 的文档页面。
BORT 需要一个特定的微调算法，称为 Agora，遗憾的是该算法尚未开源。如果有人尝试实现该算法以使 BORT 微调工作，对社区将非常有用。

< > Update on GitHub

Transformers

BORT

概述

使用提示