欢迎使用vLLM¶


面向所有人的轻松、快速且经济的LLM服务
vLLM是一个快速易用的库,用于大语言模型推理和服务。
vLLM最初由Sky Computing Lab在加州大学伯克利分校开发,现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。
vLLM 在以下方面表现快速:
- 最先进的推理吞吐量
- 通过PagedAttention高效管理注意力键值内存
- 对传入请求进行连续批处理
- 通过CUDA/HIP图实现快速模型执行
- 量化支持: GPTQ, AWQ, INT4, INT8, 以及 FP8
- 优化的CUDA内核,包括与FlashAttention和FlashInfer的集成。
- 推测解码
- 分块预填充
vLLM 灵活易用,支持以下场景:
- 与热门HuggingFace模型无缝集成
- 支持多种解码算法的高吞吐量服务,包括并行采样、束搜索等
- 支持张量、流水线、数据和专家并行,用于分布式推理
- 流式输出
- 兼容OpenAI的API服务器
- 支持NVIDIA GPU、AMD CPU和GPU、Intel CPU、Gaudi®加速器和GPU、IBM Power CPU、TPU,以及AWS Trainium和Inferentia加速器。
- 前缀缓存支持
- 多LoRA支持
如需了解更多信息,请查看以下内容:
- vLLM 发布公告博客文章 (PagedAttention 简介)
- vLLM论文 (SOSP 2023)
- 连续批处理如何在降低p50延迟的同时实现LLM推理吞吐量提升23倍 作者:Cade Daniel等
- vLLM 技术交流会