推理概述和特性
DeepSpeed-Inference v2 已经到来,它被称为 DeepSpeed-FastGen!为了获得最佳性能、最新功能和最新模型支持,请查看我们的 DeepSpeed-FastGen 发布博客!
DeepSpeed-Inference 引入了多项功能,以高效地服务于基于 Transformer 的 PyTorch 模型。它支持模型并行(MP),以适应原本无法放入 GPU 内存的大型模型。即使对于较小的模型,MP 也可以用于减少推理的延迟。为了进一步减少延迟和成本,我们引入了推理定制的内核。最后,我们提出了一种称为 MoQ 的新方法,用于量化模型,以缩小模型并降低生产中的推理成本。有关 DeepSpeed 中推理相关优化的更多详细信息,请参阅我们的 博客文章。
DeepSpeed 为使用 DeepSpeed、Megatron 和 HuggingFace 训练的兼容基于 transformer 的模型提供了无缝的推理模式,这意味着我们不需要在建模方面进行任何更改,例如导出模型或从训练好的检查点创建不同的检查点。要在多 GPU 上运行兼容模型的推理,只需提供模型并行度和检查点信息或已从检查点加载的模型,DeepSpeed 将完成其余工作。它将根据需要自动分区模型,将兼容的高性能内核注入到您的模型中,并管理 GPU 间的通信。有关兼容模型的列表,请参见 这里。
要开始使用 DeepSpeed-Inference,请查看我们的 教程。