什么是 Groq?

最近，Groq 因为是当今最快的LLM推理解决方案之一而成为了新闻头条。LLM从业者对减少LLM响应的延迟非常感兴趣。延迟是一个重要的指标，可以优化和实现实时AI应用。目前有许多公司在竞争LLM推理领域。

Groq是这些LLM推理公司之一，他们声称在撰写本文时，与其他顶级云提供商相比，在Anyscale的LLMPerf排行榜上推理性能快了18倍。Groq目前通过其API提供了Meta AI的Llama 2 70B和Mixtral 8x7B等模型。这些模型由Groq LPU™推理引擎提供支持，该引擎是使用他们自己设计用于运行LLM的自定义硬件构建的，称为语言处理单元（LPU）。

根据Groq的常见问题解答，LPU有助于减少每个单词计算的时间，从而实现更快的文本序列生成。您可以在他们的ISCA获奖论文2020和2022中详细了解LPU的技术细节和优势。

以下是他们模型的速度和定价表：

"Groq pricing"

下图比较了输出标记吞吐量（标记/秒），即每秒返回的平均输出标记数。图表中的数字对应于Llama 2 70B模型上LLM推理提供商的平均输出标记吞吐量（基于150个请求）。

"LLMPerf Leaderboard"

LLM推理的另一个重要因素，特别是对于流媒体应用程序，是所谓的首标记时间（TTFT），它对应于LLM返回第一个标记所用的时间。下面的图表显示了不同LLM推理提供商的性能：

"time to first token (seconds)"

您可以在Anyscale的LLMPerf Leaderboard上阅读更多关于Groq的LLM推理性能的信息这里。