使用ZeRO-Offload在单个GPU上进行10倍更大的模型训练

我们介绍了一种名为ZeRO-Offload的新技术,使得在单个GPU上进行10倍更大的模型训练成为可能。ZeRO-Offload扩展了ZeRO-2,以利用CPU和GPU内存来训练大型模型。使用单个GPU的机器,我们的用户现在可以运行高达130亿参数的模型而不会耗尽内存,比现有方法大10倍,同时获得有竞争力的吞吐量。这一功能使数十亿参数模型的训练民主化,并为许多深度学习从业者打开了探索更大更好模型的窗口。

  • 有关ZeRO-Offload的更多信息,请参阅我们的新闻稿
  • 有关如何使用 ZeRO-Offload 的更多信息,请参阅我们的 ZeRO-Offload 教程
  • ZeRO-Offload的源代码可以在DeepSpeed repo中找到。

更新: