Transformers 文档
BORT
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
BORT
该模型仅处于维护模式,我们不接受任何更改其代码的新拉取请求。
如果在运行此模型时遇到任何问题,请重新安装支持此模型的最后一个版本:v4.30.0。您可以通过运行以下命令进行安装:`pip install -U transformers==4.30.0`。
概述
BORT 模型由 Adrian de Wynter 和 Daniel J. Perry 在论文 BERT 的最优子架构提取 中提出。它是 BERT 架构参数的一个最优子集,作者称之为“Bort”。
论文摘要如下:
我们通过应用神经架构搜索算法的最新突破,从 Devlin 等人 (2018) 的 BERT 架构中提取出一个最优的架构参数子集。这个我们称之为“Bort”的最优子集明显更小,其有效尺寸(即不计入嵌入层)仅为原始 BERT-large 架构的 5.5%,净尺寸为其 16%。Bort 也能在 288 个 GPU 小时内完成预训练,这仅为预训练性能最佳的 BERT 参数化架构变体 RoBERTa-large (Liu et al., 2019) 所需时间的 1.2%,约为在相同硬件上训练 BERT-large 的世界纪录 GPU 小时数的 33%。它在 CPU 上的运行速度也快 7.9 倍,并且性能优于该架构的其他压缩变体以及一些未压缩的变体:在多个公开的自然语言理解(NLU)基准测试中,相较于 BERT-large,它取得了 0.3% 到 31% 的绝对性能提升。
该模型由 stefan-it 贡献。原始代码可以在 这里 找到。
使用技巧
- BORT 的模型架构基于 BERT,请参阅 BERT 的文档页面 以获取该模型的 API 参考和使用示例。
- BORT 使用 RoBERTa 分词器而非 BERT 分词器,请参阅 RoBERTa 的文档页面 以获取该分词器的 API 参考和使用示例。
- BORT 需要一个特定的微调算法,称为 Agora,但遗憾的是该算法尚未开源。如果有人能尝试实现该算法以使 BORT 微调能够正常工作,这对社区将非常有帮助。