Zero Inference 2023年9月12日 标题: “ZeRO-Inference: 通过权重量化和KV缓存卸载实现20倍更快的推理” 摘要: “” 链接: https://github.com/microsoft/DeepSpeedExa...