Tutorials

DeepSpeed Mixture-of-Quantization (MoQ)

DeepSpeed 引入了新的模型压缩支持，使用量化技术，称为混合量化（MoQ）。MoQ 是在 QAT（量化...

DeepSpeed 加速器抽象接口

目录目录介绍编写与加速器无关的模型移植加速器运行时调用移植加速器设备名称更多...

DeepSpeed 加速器设置指南

目录目录介绍英特尔架构 (IA) CPU 英特尔 XPU 华为昇腾 NPU 英特尔 Gaudi

安装详情

开始使用DeepSpeed的最快方式是通过pip，这将安装最新版本的DeepSpeed，该版本不依赖于特定的PyTorch或CUDA版本...

Automatic Tensor Parallelism for HuggingFace Models

内容介绍示例脚本启动 T5 11B 推理性能比较 OPT 13B 推理性能比较 ...

Autotuning

自动发现提供良好训练速度的最佳DeepSpeed配置

Getting Started with DeepSpeed on Azure

本教程将帮助您在Azure上开始使用DeepSpeed。

BingBertSQuAD 微调

BERT预训练

CIFAR-10 Tutorial

使用DeepSpeed训练你的第一个模型！

Communication Logging

记录所有DeepSpeed通信调用

课程学习：一种用于高效稳定十亿规模GPT模型预训练的正则化方法

注意！在2022年12月12日，我们发布了DeepSpeed数据效率库，该库提供了更通用的课程学习支持。这个遗留的课程学习...

DeepSpeed Data Efficiency: 一个可组合的库，可以更好地利用数据，提高训练效率，并改善模型质量

什么是DeepSpeed Data Efficiency：DeepSpeed Data Efficiency是一个专门构建的库，旨在更好地利用数据，提高训练效率，并改善...

DeepNVMe

本教程将展示如何使用DeepNVMe在持久存储和驻留在主机或设备内存中的张量之间进行数据传输。DeepNVMe提高了...

Domino

Domino 在张量并行训练中实现了几乎完全的通信隐藏。请在 DeepSpeedExample 仓库中找到我们的 Domino 教程。

使用DeepSpeed-Ulysses进行极端长序列训练的Transformer模型入门

在本教程中，我们将介绍如何启用DeepSpeed-Ulysses。DeepSpeed-Ulysses是一种简单但高度通信和内存高效的机制序列...

DS4Sci_EvoformerAttention 解决了扩展以 Evoformer 为中心的结构生物学模型时的内存爆炸问题

1. 什么是 DS4Sci_EvoformerAttention DS4Sci_EvoformerAttention 是一组内核，旨在将 Evoformer 计算扩展到更多的序列...

Flops Profiler

测量模型的参数、延迟和浮点运算

DCGAN教程

使用DeepSpeed训练你的第一个GAN模型！

Getting Started

DeepSpeed 的第一步

开始使用DeepSpeed进行基于Transformer模型的推理

DeepSpeed-Inference v2已经到来，它被称为DeepSpeed-FastGen！为了获得最佳性能、最新功能和最新模型支持，请参阅我们的DeepS...

使用DeepSpeed训练您的大型模型

概述

Learning Rate Range Test

本教程展示了如何在PyTorch中执行学习率范围测试。

Megatron-LM GPT2

如果您还没有阅读过，我们建议您首先阅读入门指南，然后再进行本教程的学习。

Mixed Precision ZeRO++

混合精度 ZeRO++ (MixZ++) 是一组基于 ZeRO 和 ZeRO++ 的优化策略，旨在提高大型模型的效率并减少内存使用...

开始使用DeepSpeed-MoE进行大规模MoE模型的推理

DeepSpeed-MoE推理在密集模型推理优化（DeepSpeed-Inference博客文章）的基础上引入了几个重要特性。它包含...

Mixture of Experts for NLG models

在本教程中，我们介绍了如何将DeepSpeed的专家混合（MoE）应用于NLG模型，这可以将训练成本降低5倍，并减少MoE m...

专家混合

DeepSpeed v0.5 引入了对训练专家混合（MoE）模型的新支持。MoE 模型是一类新兴的稀疏激活模型，具有...

DeepSpeed Model Compression Library

什么是DeepSpeed压缩：DeepSpeed压缩是一个专门构建的库，旨在使研究人员和从业者能够轻松压缩模型，同时...

Monitor

实时监控您的模型训练指标并记录以供未来分析

1-Cycle Schedule

本教程展示了如何在PyTorch中实现1Cycle学习率和动量的调度。

1-bit Adam: 通信量减少最多5倍，训练速度提升最多3.4倍

注意：在2022年3月7日，我们发布了0/1 Adam，这是一种新的通信高效的Adam优化器，部分遵循了1-bit Adam的设计。与...

1-bit LAMB: 使用LAMB的收敛速度进行通信高效的大规模大批量训练

注意！ 1) 基于NCCL的实现需要PyTorch >= 1.8（当你有64个或更多GPU时，NCCL >= 2.8.3）。详见下文。2) 尽管1...

Pipeline Parallelism

DeepSpeed v0.3 包含了对管道并行性的新支持！管道并行性提高了深度学习训练的内存和计算效率...

加速基于Transformer的语言模型训练与渐进层丢弃

在本教程中，我们将介绍DeepSpeed中的渐进层丢弃（PLD），并提供如何使用PLD的示例。PLD允许训练Tra...

使用PyTorch Profiler与DeepSpeed进行性能调试

本教程描述了如何使用PyTorch Profiler与DeepSpeed。

DeepSpeed Sparse Attention

在本教程中，我们将介绍如何使用DeepSpeed稀疏注意力（SA）及其构建块内核。使用SA的最简单方法是通过DeepSpeed启动...

DeepSpeed Transformer Kernel

本教程展示了如何启用DeepSpeed transformer内核并设置其不同的配置参数。

DeepSpeed Ulysses-Offload

DeepSpeed Ulysses-Offload 是一个建立在 ZeRO 和 DeepSpeed Ulysses 之上的分块和卸载长上下文变压器模型训练方案的系统。I...

Universal Checkpointing with DeepSpeed: A Practical Guide

DeepSpeed 通用检查点功能是一种强大工具，用于以高效且灵活的方式保存和加载模型检查点，使得...

ZeRO-Offload

ZeRO-3 Offload 包含我们新发布的 ZeRO-Infinity 中的一部分功能。阅读我们的 ZeRO-Infinity 博客以了解更多信息！

通过0/1 Adam最大化大规模训练的通信效率

注意！ 1) 基于NCCL的实现需要PyTorch >= 1.8（当你有64个或更多GPU时，NCCL >= 2.8.3）。详见下文。2) 尽管0...

Zero Redundancy Optimizer

ZeRO++

ZeRO++ 是一套建立在 ZeRO 之上的通信优化策略系统，旨在为大规模模型训练提供无与伦比的效率，无论规模如何...