欢迎使用vLLM¶

为所有人提供简单、快速且经济的LLM服务

Star Watch Fork

vLLM是一个快速易用的库，用于大语言模型推理和服务。

vLLM最初由Sky Computing Lab在加州大学伯克利分校开发，现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 在以下方面表现快速：

vLLM 灵活易用，支持以下场景：

与热门HuggingFace模型的无缝集成
支持多种解码算法的高吞吐量服务，包括并行采样、束搜索等
支持张量并行和流水线并行的分布式推理
流式输出
兼容OpenAI的API服务器
支持NVIDIA GPU、AMD CPU和GPU、Intel CPU、Gaudi®加速器和GPU、IBM Power CPU、TPU，以及AWS Trainium和Inferentia加速器。
前缀缓存支持
多LoRA支持

如需了解更多信息，请查看以下内容：