使用 BentoML 部署

使用 BentoML 部署#

BentoML 允许你使用 vLLM 作为后端部署一个大型语言模型(LLM)服务器,该服务器暴露了与 OpenAI 兼容的端点。你可以在本地提供模型服务,或者将其容器化为符合 OCI 标准的镜像并部署在 Kubernetes 上。

详情请参阅教程 BentoML 文档中的 vLLM 推理