如何处理速率限制
Prerequisites
本指南假设您熟悉以下概念:
你可能会发现自己处于一种情况,即由于你发送了太多请求,模型提供商的API对你进行了速率限制。
例如,如果您正在运行许多并行查询以在测试数据集上对聊天模型进行基准测试,则可能会发生这种情况。
如果你面临这种情况,你可以使用速率限制器来帮助你匹配你发出请求的速率与API允许的速率。
Requires
langchain-core >= 0.2.24
此功能已在langchain-core == 0.2.24
中添加。请确保您的包是最新的。
初始化一个速率限制器
Langchain 自带一个内置的内存速率限制器。这个速率限制器是线程安全的,可以在同一进程中被多个线程共享。
提供的速率限制器只能限制单位时间内的请求数量。如果您还需要根据请求的大小进行限制,它将无法提供帮助。
from langchain_core.rate_limiters import InMemoryRateLimiter
rate_limiter = InMemoryRateLimiter(
requests_per_second=0.1, # <-- Super slow! We can only make a request once every 10 seconds!!
check_every_n_seconds=0.1, # Wake up every 100 ms to check whether allowed to make a request,
max_bucket_size=10, # Controls the maximum burst size.
)
API Reference:InMemoryRateLimiter
选择一个模型
选择任何模型并通过rate_limiter
属性将速率限制器传递给它。
import os
import time
from getpass import getpass
if "ANTHROPIC_API_KEY" not in os.environ:
os.environ["ANTHROPIC_API_KEY"] = getpass()
from langchain_anthropic import ChatAnthropic
model = ChatAnthropic(model_name="claude-3-opus-20240229", rate_limiter=rate_limiter)
API Reference:ChatAnthropic
让我们确认速率限制器是否有效。我们应该每10秒只能调用模型一次。
for _ in range(5):
tic = time.time()
model.invoke("hello")
toc = time.time()
print(toc - tic)
11.599073648452759
10.7502121925354
10.244257926940918
8.83088755607605
11.645203590393066