通过优化的Transformer内核实现最快且最高效的BERT训练

2020年5月18日

我们引入了新技术，通过内核优化来加速单个GPU的性能。这些优化不仅为扩展大型模型奠定了坚实的基础，还将高度调优和中等规模模型（如BERT）的单个GPU性能提高了30%以上，达到了每V100 GPU 66万亿次浮点运算的惊人性能，这是硬件峰值的52%。使用优化的transformer内核作为构建模块，DeepSpeed实现了最快的BERT训练记录：在1,024个NVIDIA V100 GPU上仅需44分钟，相比之下，相同数量和代次的GPU上发布的最佳结果为67分钟。

简要概述，请参阅我们的新闻稿。
详细技术深度解析，请参阅我们的博客文章。
关于如何重现我们的结果的教程，请参阅我们的BERT预训练教程。
我们的transformer内核的源代码可以在DeepSpeed repo中找到，BERT预训练代码可以在DeepSpeedExamples repo中找到。

Twitter Facebook LinkedIn