PyTorch中的分布式数据并行 - 视频教程

创建于：2022年9月27日 | 最后更新：2024年11月15日 | 最后验证：2024年11月5日

跟随下面的视频或在youtube上观看。

本系列视频教程将引导您通过DDP在PyTorch中进行分布式训练。

该系列从简单的非分布式训练任务开始，最终实现在集群中的多台机器上部署训练任务。在此过程中，您还将学习到torchrun用于容错的分布式训练。

本教程假设您对PyTorch中的模型训练有基本的了解。

运行代码

您将需要多个CUDA GPU来运行教程代码。通常，这可以在具有多个GPU的云实例上完成（教程使用具有4个GPU的Amazon EC2 P3实例）。

教程代码托管在这个 github repo。克隆仓库并跟随学习！