博客


Zero Inference

标题: “ZeRO-Inference: 通过权重量化和KV缓存卸载实现20倍更快的推理” 摘要: “” 链接: https://github.com/microsoft/DeepSpeedExa...