Skip to main content
Open In ColabOpen on GitHub

Upstash 限流回调

在本指南中,我们将介绍如何使用UpstashRatelimitHandler基于请求数量或令牌数量添加速率限制。此处理程序使用Upstash的ratelimit库,该库利用Upstash Redis

Upstash Ratelimit 的工作原理是每次调用 limit 方法时,都会向 Upstash Redis 发送一个 HTTP 请求。用户的剩余令牌/请求会被检查和更新。根据剩余的令牌,我们可以停止执行昂贵的操作,比如调用 LLM 或查询向量存储:

response = ratelimit.limit()
if response.allowed:
execute_costly_operation()

UpstashRatelimitHandler 允许您在几分钟内将速率限制逻辑集成到您的链中。

首先,您需要前往Upstash控制台并创建一个Redis数据库(请参阅我们的文档)。创建数据库后,您需要设置环境变量:

UPSTASH_REDIS_REST_URL="****"
UPSTASH_REDIS_REST_TOKEN="****"

接下来,您需要安装Upstash Ratelimit和Redis库,使用以下命令:

pip install upstash-ratelimit upstash-redis

您现在已准备好为您的链添加速率限制!

每个请求的速率限制

让我们想象一下,我们希望允许用户每分钟调用我们的链10次。实现这一点非常简单:

# set env variables
import os

os.environ["UPSTASH_REDIS_REST_URL"] = "****"
os.environ["UPSTASH_REDIS_REST_TOKEN"] = "****"

from langchain_community.callbacks import UpstashRatelimitError, UpstashRatelimitHandler
from langchain_core.runnables import RunnableLambda
from upstash_ratelimit import FixedWindow, Ratelimit
from upstash_redis import Redis

# create ratelimit
ratelimit = Ratelimit(
redis=Redis.from_env(),
# 10 requests per window, where window size is 60 seconds:
limiter=FixedWindow(max_requests=10, window=60),
)

# create handler
user_id = "user_id" # should be a method which gets the user id
handler = UpstashRatelimitHandler(identifier=user_id, request_ratelimit=ratelimit)

# create mock chain
chain = RunnableLambda(str)

# invoke chain with handler:
try:
result = chain.invoke("Hello world!", config={"callbacks": [handler]})
except UpstashRatelimitError:
print("Handling ratelimit.", UpstashRatelimitError)
Error in UpstashRatelimitHandler.on_chain_start callback: UpstashRatelimitError('Request limit reached!')
``````output
Handling ratelimit. <class 'langchain_community.callbacks.upstash_ratelimit_callback.UpstashRatelimitError'>

请注意,我们在调用invoke方法时传递了处理程序,而不是在定义链时传递处理程序。

对于除FixedWindow之外的速率限制算法,请参阅upstash-ratelimit 文档

在执行我们的管道中的任何步骤之前,ratelimit 将检查用户是否超过了请求限制。如果是这样,UpstashRatelimitError 将被抛出。

每个令牌的速率限制

另一个选项是基于以下内容对链调用进行速率限制:

  1. 提示中的令牌数量
  2. 提示和LLM完成中的令牌数量

这只有在你的链中有一个LLM时才有效。另一个要求是你使用的LLM应该在其LLMOutput中返回令牌使用情况。

它是如何工作的

处理程序将在调用LLM之前获取剩余的令牌。如果剩余令牌大于0,将调用LLM。否则将引发UpstashRatelimitError

调用LLM后,将使用令牌使用信息从用户的剩余令牌中扣除。在此链的阶段不会引发错误。

配置

对于第一个配置,只需像这样初始化处理程序:

ratelimit = Ratelimit(
redis=Redis.from_env(),
# 1000 tokens per window, where window size is 60 seconds:
limiter=FixedWindow(max_requests=1000, window=60),
)

handler = UpstashRatelimitHandler(identifier=user_id, token_ratelimit=ratelimit)

对于第二种配置,以下是初始化处理程序的方法:

ratelimit = Ratelimit(
redis=Redis.from_env(),
# 1000 tokens per window, where window size is 60 seconds:
limiter=FixedWindow(max_requests=1000, window=60),
)

handler = UpstashRatelimitHandler(
identifier=user_id,
token_ratelimit=ratelimit,
include_output_tokens=True, # set to True
)

你也可以同时基于请求和令牌使用速率限制,只需同时传递request_ratelimittoken_ratelimit参数。

这里是一个使用LLM的链的示例:

# set env variables
import os

os.environ["UPSTASH_REDIS_REST_URL"] = "****"
os.environ["UPSTASH_REDIS_REST_TOKEN"] = "****"
os.environ["OPENAI_API_KEY"] = "****"

from langchain_community.callbacks import UpstashRatelimitError, UpstashRatelimitHandler
from langchain_core.runnables import RunnableLambda
from langchain_openai import ChatOpenAI
from upstash_ratelimit import FixedWindow, Ratelimit
from upstash_redis import Redis

# create ratelimit
ratelimit = Ratelimit(
redis=Redis.from_env(),
# 500 tokens per window, where window size is 60 seconds:
limiter=FixedWindow(max_requests=500, window=60),
)

# create handler
user_id = "user_id" # should be a method which gets the user id
handler = UpstashRatelimitHandler(identifier=user_id, token_ratelimit=ratelimit)

# create mock chain
as_str = RunnableLambda(str)
model = ChatOpenAI()

chain = as_str | model

# invoke chain with handler:
try:
result = chain.invoke("Hello world!", config={"callbacks": [handler]})
except UpstashRatelimitError:
print("Handling ratelimit.", UpstashRatelimitError)
Error in UpstashRatelimitHandler.on_llm_start callback: UpstashRatelimitError('Token limit reached!')
``````output
Handling ratelimit. <class 'langchain_community.callbacks.upstash_ratelimit_callback.UpstashRatelimitError'>

这个页面有帮助吗?