概述¶

重要

现在许多解码器语言模型都可以通过Transformers后端自动加载，无需在vLLM中手动实现。请先尝试运行vllm serve 是否可用！

vLLM模型是专门的PyTorch模型，利用各种特性来优化其性能。

将模型集成到vLLM的复杂程度很大程度上取决于模型架构。如果该模型与vLLM中现有模型的架构相似，那么集成过程会相对简单。但对于包含新运算符（例如新的注意力机制）的模型来说，这个过程可能会更加复杂。

请阅读以下页面获取逐步指南：

提示

如果您在将模型集成到vLLM时遇到问题，欢迎提交GitHub issue或在我们的开发者Slack上提问。我们将很乐意为您提供帮助！