跳至内容

欢迎使用vLLM

vLLM

为所有人提供简单、快速且经济的LLM服务

Star Watch Fork

vLLM是一个快速易用的库,用于大语言模型推理和服务。

vLLM最初由Sky Computing Lab在加州大学伯克利分校开发,现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 在以下方面表现快速:

  • 业界领先的服务吞吐量
  • 通过PagedAttention高效管理注意力键值内存
  • 对传入请求进行连续批处理
  • 通过CUDA/HIP图实现快速模型执行
  • 量化支持:GPTQ, AWQ, INT4, INT8 和 FP8
  • 优化的CUDA内核,包括与FlashAttention和FlashInfer的集成。
  • 推测解码
  • 分块预填充

vLLM 灵活易用,支持以下场景:

  • 与热门HuggingFace模型的无缝集成
  • 支持多种解码算法的高吞吐量服务,包括并行采样束搜索
  • 支持张量并行和流水线并行的分布式推理
  • 流式输出
  • 兼容OpenAI的API服务器
  • 支持NVIDIA GPU、AMD CPU和GPU、Intel CPU、Gaudi®加速器和GPU、IBM Power CPU、TPU,以及AWS Trainium和Inferentia加速器。
  • 前缀缓存支持
  • 多LoRA支持

如需了解更多信息,请查看以下内容: