使用 CoreWeave 的 Tensorizer 加载模型#
vLLM 支持使用 CoreWeave 的 Tensorizer 加载模型。vLLM 模型张量如果已经被序列化到磁盘、HTTP/HTTPS 端点或 S3 端点,可以在运行时极快地反序列化直接到 GPU,从而显著缩短 Pod 启动时间和 CPU 内存使用。还支持张量加密。
关于 CoreWeave 的 Tensorizer 的更多信息,请参阅 CoreWeave 的 Tensorizer 文档。关于序列化 vLLM 模型的更多信息,以及使用 Tensorizer 与 vLLM 的一般使用指南,请参见 vLLM 示例脚本。