量化内核支持的硬件#
下表显示了 vLLM 中各种量化实现在不同硬件平台上的兼容性:
实现 |
伏特 |
图灵 |
安培 |
Ada |
Hopper |
AMD GPU |
Intel GPU |
x86 CPU |
AWS Inferentia |
Google TPU |
---|---|---|---|---|---|---|---|---|---|---|
AWQ |
✗ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✅︎ |
✗ |
✗ |
GPTQ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
Marlin (GPTQ/AWQ/FP8) |
✗ |
✗ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
INT8 (W8A8) |
✗ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✅︎ |
✗ |
✗ |
FP8 (W8A8) |
✗ |
✗ |
✗ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
AQLM |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
bitsandbytes |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
DeepSpeedFP |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
GGUF |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
注释:#
Volta 指的是 SM 7.0,Turing 指的是 SM 7.5,Ampere 指的是 SM 8.0/8.6,Ada 指的是 SM 8.9,Hopper 指的是 SM 9.0。
“✅︎” 表示该量化方法在指定硬件上受支持。
“✗” 表示该量化方法在指定的硬件上不受支持。
请注意,随着 vLLM 的不断发展和扩展对不同硬件平台和量化方法的支持,此兼容性图表可能会发生变化。
有关硬件支持和量化方法的最新信息,请查看 量化目录 或咨询 vLLM 开发团队。