使用ZeRO-2进行数量级更大更快的训练

2020年5月18日

ZeRO-2 通过解决训练期间的全谱内存消耗，扩展了原始 ZeRO 中的内存优化范围。更具体地说，除了原始 ZeRO 中的优化器状态内存优化外，ZeRO-2 还引入了新技术来减少梯度、激活内存和碎片内存的内存占用。总的来说，这些内存节省使 DeepSpeed 能够将深度学习训练的规模和速度提高一个数量级。更具体地说，与现有技术相比，ZeRO-2 允许训练高达 1700 亿参数的模型，速度提高多达 10 倍。

有关ZeRO-2的更多信息，请参阅我们的博客文章。

有关如何使用ZeRO-2的更多信息，请参阅本教程中训练GPT系列模型的示例。

有关技术概述，请参阅我们的技术报告。

Twitter Facebook LinkedIn