推理概述和特性

DeepSpeed-Inference v2 已经到来，它被称为 DeepSpeed-FastGen！为了获得最佳性能、最新功能和最新模型支持，请查看我们的 DeepSpeed-FastGen 发布博客！

DeepSpeed-Inference 引入了多项功能，以高效地服务于基于 Transformer 的 PyTorch 模型。它支持模型并行（MP），以适应原本无法放入 GPU 内存的大型模型。即使对于较小的模型，MP 也可以用于减少推理的延迟。为了进一步减少延迟和成本，我们引入了推理定制的内核。最后，我们提出了一种称为 MoQ 的新方法，用于量化模型，以缩小模型并降低生产中的推理成本。有关 DeepSpeed 中推理相关优化的更多详细信息，请参阅我们的博客文章。

DeepSpeed 为使用 DeepSpeed、Megatron 和 HuggingFace 训练的兼容基于 transformer 的模型提供了无缝的推理模式，这意味着我们不需要在建模方面进行任何更改，例如导出模型或从训练好的检查点创建不同的检查点。要在多 GPU 上运行兼容模型的推理，只需提供模型并行度和检查点信息或已从检查点加载的模型，DeepSpeed 将完成其余工作。它将根据需要自动分区模型，将兼容的高性能内核注入到您的模型中，并管理 GPU 间的通信。有关兼容模型的列表，请参见这里。

要开始使用 DeepSpeed-Inference，请查看我们的教程。