CTranslate2
CTranslate2 是一个用于使用Transformer模型进行高效推理的C++和Python库。
该项目实现了一个自定义运行时,应用了许多性能优化技术,如权重量化、层融合、批次重排序等,以加速和减少CPU和GPU上Transformer模型的内存使用。
安装和设置
安装Python包:
pip install ctranslate2
LLMs
请参阅使用示例。
from langchain_community.llms import CTranslate2
CTranslate2 是一个用于使用Transformer模型进行高效推理的C++和Python库。
该项目实现了一个自定义运行时,应用了许多性能优化技术,如权重量化、层融合、批次重排序等,以加速和减少CPU和GPU上Transformer模型的内存使用。
安装Python包:
pip install ctranslate2
请参阅使用示例。
from langchain_community.llms import CTranslate2