使用 Docker 部署#
vLLM 提供了一个官方的 Docker 镜像用于部署。该镜像可以用来运行兼容 OpenAI 的服务器,并且在 Docker Hub 上作为 vllm/vllm-openai 提供。
$ docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HUGGING_FACE_HUB_TOKEN=<secret>" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:latest \
--model mistralai/Mistral-7B-v0.1
备注
你可以使用 ipc=host
标志或 --shm-size
标志来允许容器访问主机的共享内存。vLLM 使用 PyTorch,它在底层使用共享内存在进程之间共享数据,特别是在张量并行推理中。
你可以通过提供的 Dockerfile 从源码构建并运行 vLLM。要构建 vLLM:
$ DOCKER_BUILDKIT=1 docker build . --target vllm-openai --tag vllm/vllm-openai # optionally specifies: --build-arg max_jobs=8 --build-arg nvcc_threads=2
备注
默认情况下,vLLM 将为所有 GPU 类型构建以实现最广泛的分布。如果您仅为当前机器运行的 GPU 类型构建,可以为 vLLM 添加参数 --build-arg torch_cuda_arch_list=""
以找到当前 GPU 类型并为其构建。
运行 vLLM:
$ docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<secret>" \
vllm/vllm-openai <args...>
备注
仅适用于 `v0.4.1` 和 `v0.4.2` - 这些版本下的 vLLM docker 镜像应由 root 用户运行,因为在运行时需要加载位于 root 用户主目录下的库,即 /root/.config/vllm/nccl/cu12/libnccl.so.2.18.1
。如果您在不同的用户下运行容器,您可能需要首先更改库(及其所有父目录)的权限以允许用户访问它,然后使用环境变量 VLLM_NCCL_SO_PATH=/root/.config/vllm/nccl/cu12/libnccl.so.2.18.1
运行 vLLM。