概述¶
重要
现在许多解码器语言模型都可以通过Transformers后端自动加载,无需在vLLM中手动实现。请先尝试运行vllm serve 是否可用!
vLLM模型是专门的PyTorch模型,利用各种特性来优化其性能。
将模型集成到vLLM的复杂程度很大程度上取决于模型架构。如果该模型与vLLM中现有模型的架构相似,那么集成过程会相对简单。但对于包含新运算符(例如新的注意力机制)的模型来说,这个过程可能会更加复杂。
请阅读以下页面获取逐步指南:
提示
如果您在将模型集成到vLLM时遇到问题,欢迎提交GitHub issue或在我们的开发者Slack上提问。我们将很乐意为您提供帮助!