使用 XPU 安装#

vLLM 最初支持在 Intel GPU 平台上进行基本模型推理和部署。

目录:

  1. 要求

  2. 使用Dockerfile快速启动

  3. 从源码构建

要求#

  • 操作系统: Linux

  • 支持的硬件:Intel 数据中心 GPU,Intel ARC GPU

  • OneAPI 要求:oneAPI 2024.2

使用 Dockerfile 快速开始#

$ docker build -f Dockerfile.xpu -t vllm-xpu-env --shm-size=4g .
$ docker run -it \
             --rm \
             --network=host \
             --device /dev/dri \
             -v /dev/dri/by-path:/dev/dri/by-path \
             vllm-xpu-env

从源码构建#

  • 首先,安装所需的驱动程序和Intel OneAPI 2024.2或更高版本。

  • 其次,安装用于 vLLM XPU 后端构建的 Python 包:

$ source /opt/intel/oneapi/setvars.sh
$ pip install --upgrade pip
$ pip install -v -r requirements-xpu.txt
  • 最后,构建并安装 vLLM XPU 后端:

$ VLLM_TARGET_DEVICE=xpu python setup.py install

备注

  • FP16 是当前 XPU 后端中的默认数据类型。BF16 数据类型将在未来得到支持。