通过优化的Transformer内核实现最快且最高效的BERT训练

我们引入了新技术,通过内核优化来加速单个GPU的性能。这些优化不仅为扩展大型模型奠定了坚实的基础,还将高度调优和中等规模模型(如BERT)的单个GPU性能提高了30%以上,达到了每V100 GPU 66万亿次浮点运算的惊人性能,这是硬件峰值的52%。使用优化的transformer内核作为构建模块,DeepSpeed实现了最快的BERT训练记录:在1,024个NVIDIA V100 GPU上仅需44分钟,相比之下,相同数量和代次的GPU上发布的最佳结果为67分钟。

更新: