跳到主要内容

什么是 Groq?

最近,Groq 因为是当今最快的LLM推理解决方案之一而成为了新闻头条。LLM从业者对减少LLM响应的延迟非常感兴趣。延迟是一个重要的指标,可以优化和实现实时AI应用。目前有许多公司在竞争LLM推理领域。

Groq是这些LLM推理公司之一,他们声称在撰写本文时,与其他顶级云提供商相比,在Anyscale的LLMPerf排行榜上推理性能快了18倍。Groq目前通过其API提供了Meta AI的Llama 2 70B和Mixtral 8x7B等模型。这些模型由Groq LPU™推理引擎提供支持,该引擎是使用他们自己设计用于运行LLM的自定义硬件构建的,称为语言处理单元(LPU)。

根据Groq的常见问题解答,LPU有助于减少每个单词计算的时间,从而实现更快的文本序列生成。您可以在他们的ISCA获奖论文20202022中详细了解LPU的技术细节和优势。

以下是他们模型的速度和定价表:

"Groq pricing"

下图比较了输出标记吞吐量(标记/秒),即每秒返回的平均输出标记数。图表中的数字对应于Llama 2 70B模型上LLM推理提供商的平均输出标记吞吐量(基于150个请求)。

"LLMPerf Leaderboard"

LLM推理的另一个重要因素,特别是对于流媒体应用程序,是所谓的首标记时间(TTFT),它对应于LLM返回第一个标记所用的时间。下面的图表显示了不同LLM推理提供商的性能:

"time to first token (seconds)"

您可以在Anyscale的LLMPerf Leaderboard上阅读更多关于Groq的LLM推理性能的信息这里