使用 NVIDIA Triton 部署# Triton Inference Server 托管了一个教程,展示了如何使用 vLLM 快速部署一个简单的 facebook/opt-125m 模型。更多详情请参见 在 Triton 中部署 vLLM 模型。