使用ZeRO-2进行数量级更大更快的训练
ZeRO-2 通过解决训练期间的全谱内存消耗,扩展了原始 ZeRO 中的内存优化范围。更具体地说,除了原始 ZeRO 中的优化器状态内存优化外,ZeRO-2 还引入了新技术来减少梯度、激活内存和碎片内存的内存占用。总的来说,这些内存节省使 DeepSpeed 能够将深度学习训练的规模和速度提高一个数量级。更具体地说,与现有技术相比,ZeRO-2 允许训练高达 1700 亿参数的模型,速度提高多达 10 倍。
有关ZeRO-2的更多信息,请参阅我们的博客文章。
有关如何使用ZeRO-2的更多信息,请参阅本教程中训练GPT系列模型的示例。
有关技术概述,请参阅我们的技术报告。