通过优化的Transformer内核实现最快且最高效的BERT训练
我们引入了新技术,通过内核优化来加速单个GPU的性能。这些优化不仅为扩展大型模型奠定了坚实的基础,还将高度调优和中等规模模型(如BERT)的单个GPU性能提高了30%以上,达到了每V100 GPU 66万亿次浮点运算的惊人性能,这是硬件峰值的52%。使用优化的transformer内核作为构建模块,DeepSpeed实现了最快的BERT训练记录:在1,024个NVIDIA V100 GPU上仅需44分钟,相比之下,相同数量和代次的GPU上发布的最佳结果为67分钟。
- 简要概述,请参阅我们的新闻稿。
- 详细技术深度解析,请参阅我们的博客文章。
- 关于如何重现我们的结果的教程,请参阅我们的BERT预训练教程。
- 我们的transformer内核的源代码可以在DeepSpeed repo中找到,BERT预训练代码可以在DeepSpeedExamples repo中找到。