DeepSpeed Mixture-of-Quantization (MoQ)
DeepSpeed 引入了新的模型压缩支持,使用量化技术,称为混合量化(MoQ)。MoQ 是在 QAT(量化...
DeepSpeed 引入了新的模型压缩支持,使用量化技术,称为混合量化(MoQ)。MoQ 是在 QAT(量化...
目录 目录 介绍 编写与加速器无关的模型 移植加速器运行时调用 移植加速器设备名称 更多...
目录 目录 介绍 英特尔架构 (IA) CPU 英特尔 XPU 华为昇腾 NPU 英特尔 Gaudi
开始使用DeepSpeed的最快方式是通过pip,这将安装最新版本的DeepSpeed,该版本不依赖于特定的PyTorch或CUDA版本...
内容 介绍 示例脚本 启动 T5 11B 推理性能比较 OPT 13B 推理性能比较 ...
自动发现提供良好训练速度的最佳DeepSpeed配置
本教程将帮助您在Azure上开始使用DeepSpeed。
使用DeepSpeed训练你的第一个模型!
记录所有DeepSpeed通信调用
注意! 在2022年12月12日,我们发布了DeepSpeed数据效率库,该库提供了更通用的课程学习支持。这个遗留的课程学习...
什么是DeepSpeed Data Efficiency:DeepSpeed Data Efficiency是一个专门构建的库,旨在更好地利用数据,提高训练效率,并改善...
本教程将展示如何使用DeepNVMe在持久存储和驻留在主机或设备内存中的张量之间进行数据传输。DeepNVMe提高了...
Domino 在张量并行训练中实现了几乎完全的通信隐藏。请在 DeepSpeedExample 仓库中找到我们的 Domino 教程。
在本教程中,我们将介绍如何启用DeepSpeed-Ulysses。DeepSpeed-Ulysses是一种简单但高度通信和内存高效的机制序列...
1. 什么是 DS4Sci_EvoformerAttention DS4Sci_EvoformerAttention 是一组内核,旨在将 Evoformer 计算扩展到更多的序列...
测量模型的参数、延迟和浮点运算
使用DeepSpeed训练你的第一个GAN模型!
DeepSpeed 的第一步
DeepSpeed-Inference v2已经到来,它被称为DeepSpeed-FastGen!为了获得最佳性能、最新功能和最新模型支持,请参阅我们的DeepS...
本教程展示了如何在PyTorch中执行学习率范围测试。
如果您还没有阅读过,我们建议您首先阅读入门指南,然后再进行本教程的学习。
混合精度 ZeRO++ (MixZ++) 是一组基于 ZeRO 和 ZeRO++ 的优化策略,旨在提高大型模型的效率并减少内存使用...
DeepSpeed-MoE推理在密集模型推理优化(DeepSpeed-Inference博客文章)的基础上引入了几个重要特性。它包含...
在本教程中,我们介绍了如何将DeepSpeed的专家混合(MoE)应用于NLG模型,这可以将训练成本降低5倍,并减少MoE m...
DeepSpeed v0.5 引入了对训练专家混合(MoE)模型的新支持。MoE 模型是一类新兴的稀疏激活模型,具有...
什么是DeepSpeed压缩:DeepSpeed压缩是一个专门构建的库,旨在使研究人员和从业者能够轻松压缩模型,同时...
实时监控您的模型训练指标并记录以供未来分析
本教程展示了如何在PyTorch中实现1Cycle学习率和动量的调度。
注意: 在2022年3月7日,我们发布了0/1 Adam,这是一种新的通信高效的Adam优化器,部分遵循了1-bit Adam的设计。与...
注意! 1) 基于NCCL的实现需要PyTorch >= 1.8(当你有64个或更多GPU时,NCCL >= 2.8.3)。详见下文。2) 尽管1...
DeepSpeed v0.3 包含了对管道并行性的新支持!管道并行性提高了深度学习训练的内存和计算效率...
在本教程中,我们将介绍DeepSpeed中的渐进层丢弃(PLD),并提供如何使用PLD的示例。PLD允许训练Tra...
本教程描述了如何使用PyTorch Profiler与DeepSpeed。
在本教程中,我们将介绍如何使用DeepSpeed稀疏注意力(SA)及其构建块内核。使用SA的最简单方法是通过DeepSpeed启动...
本教程展示了如何启用DeepSpeed transformer内核并设置其不同的配置参数。
DeepSpeed Ulysses-Offload 是一个建立在 ZeRO 和 DeepSpeed Ulysses 之上的分块和卸载长上下文变压器模型训练方案的系统。I...
DeepSpeed 通用检查点功能是一种强大工具,用于以高效且灵活的方式保存和加载模型检查点,使得...
ZeRO-3 Offload 包含我们新发布的 ZeRO-Infinity 中的一部分功能。阅读我们的 ZeRO-Infinity 博客以了解更多信息!
注意! 1) 基于NCCL的实现需要PyTorch >= 1.8(当你有64个或更多GPU时,NCCL >= 2.8.3)。详见下文。2) 尽管0...
ZeRO++ 是一套建立在 ZeRO 之上的通信优化策略系统,旨在为大规模模型训练提供无与伦比的效率,无论规模如何...