教程


安装详情

开始使用DeepSpeed的最快方式是通过pip,这将安装最新版本的DeepSpeed,该版本不依赖于特定的PyTorch或CUDA版本...

Autotuning

自动发现提供良好训练速度的最佳DeepSpeed配置

DeepNVMe

本教程将展示如何使用DeepNVMe在持久存储和驻留在主机或设备内存中的张量之间进行数据传输。DeepNVMe提高了...

Domino

Domino 在张量并行训练中实现了几乎完全的通信隐藏。请在 DeepSpeedExample 仓库中找到我们的 Domino 教程。

DCGAN教程

使用DeepSpeed训练你的第一个GAN模型!

Megatron-LM GPT2

如果您还没有阅读过,我们建议您首先阅读入门指南,然后再进行本教程的学习。

Mixed Precision ZeRO++

混合精度 ZeRO++ (MixZ++) 是一组基于 ZeRO 和 ZeRO++ 的优化策略,旨在提高大型模型的效率并减少内存使用...

Mixture of Experts for NLG models

在本教程中,我们介绍了如何将DeepSpeed的专家混合(MoE)应用于NLG模型,这可以将训练成本降低5倍,并减少MoE m...

专家混合

DeepSpeed v0.5 引入了对训练专家混合(MoE)模型的新支持。MoE 模型是一类新兴的稀疏激活模型,具有...

Monitor

实时监控您的模型训练指标并记录以供未来分析

1-Cycle Schedule

本教程展示了如何在PyTorch中实现1Cycle学习率和动量的调度。

Pipeline Parallelism

DeepSpeed v0.3 包含了对管道并行性的新支持!管道并行性提高了深度学习训练的内存和计算效率...

DeepSpeed Sparse Attention

在本教程中,我们将介绍如何使用DeepSpeed稀疏注意力(SA)及其构建块内核。使用SA的最简单方法是通过DeepSpeed启动...

DeepSpeed Ulysses-Offload

DeepSpeed Ulysses-Offload 是一个建立在 ZeRO 和 DeepSpeed Ulysses 之上的分块和卸载长上下文变压器模型训练方案的系统。I...

ZeRO-Offload

ZeRO-3 Offload 包含我们新发布的 ZeRO-Infinity 中的一部分功能。阅读我们的 ZeRO-Infinity 博客以了解更多信息!

ZeRO++

ZeRO++ 是一套建立在 ZeRO 之上的通信优化策略系统,旨在为大规模模型训练提供无与伦比的效率,无论规模如何...