使用 CoreWeave 的 Tensorizer 加载模型#

vLLM 支持使用 CoreWeave 的 Tensorizer 加载模型。vLLM 模型张量如果已经被序列化到磁盘、HTTP/HTTPS 端点或 S3 端点，可以在运行时极快地反序列化直接到 GPU，从而显著缩短 Pod 启动时间和 CPU 内存使用。还支持张量加密。

关于 CoreWeave 的 Tensorizer 的更多信息，请参阅 CoreWeave 的 Tensorizer 文档。关于序列化 vLLM 模型的更多信息，以及使用 Tensorizer 与 vLLM 的一般使用指南，请参见 vLLM 示例脚本。