Transformers 文档

BORT

BORT

该模型处于维护模式,我们不接受任何更改其代码的新PR。

如果您在运行此模型时遇到任何问题,请重新安装支持此模型的最后一个版本:v4.30.0。 您可以通过运行以下命令来执行此操作:pip install -U transformers==4.30.0

概述

BORT模型由Adrian de Wynter和Daniel J. Perry在Optimal Subarchitecture Extraction for BERT中提出。它是BERT架构参数的最优子集,作者称之为“Bort”。

论文的摘要如下:

我们从Devlin等人(2018年)的BERT架构中提取了一个最优的架构参数子集,通过应用最近在神经架构搜索算法中的突破。这个最优子集,我们称之为“Bort”,明显更小,其有效大小(即不包括嵌入层)为原始BERT-large架构的5.5%,净大小的16%。Bort还能够在288 GPU小时内进行预训练,这是预训练最高性能的BERT参数架构变体RoBERTa-large(Liu等人,2019年)所需时间的1.2%,并且大约是训练BERT-large在同一硬件上所需GPU小时数的世界纪录的33%。它在CPU上的速度也快了7.9倍,并且比其他压缩变体以及一些非压缩变体表现更好:在多个公共自然语言理解(NLU)基准测试中,相对于BERT-large,它获得了0.3%到31%的绝对性能提升。

该模型由stefan-it贡献。原始代码可以在这里找到。

使用提示

  • BORT的模型架构基于BERT,有关模型的API参考和使用示例,请参阅BERT的文档页面
  • BORT 使用 RoBERTa 分词器而不是 BERT 分词器,有关分词器的 API 参考和使用示例,请参阅 RoBERTa 的文档页面
  • BORT 需要一个特定的微调算法,称为 Agora,遗憾的是该算法尚未开源。如果有人尝试实现该算法以使 BORT 微调工作,对社区将非常有用。
< > Update on GitHub