Skip to main content
Open In ColabOpen on GitHub

Huggingface 端点

Hugging Face Hub 是一个拥有超过12万个模型、2万个数据集和5万个演示应用(Spaces)的平台,所有内容都是开源且公开的,人们可以在这个在线平台上轻松协作并共同构建机器学习。

Hugging Face Hub 还提供了各种端点来构建机器学习应用程序。 此示例展示了如何连接到不同类型的端点。

特别是,文本生成推理由Text Generation Inference提供支持:这是一个定制的Rust、Python和gRPC服务器,用于极速文本生成推理。

from langchain_huggingface import HuggingFaceEndpoint
API Reference:HuggingFaceEndpoint

安装与设置

要使用,您应该安装huggingface_hub python包。

%pip install --upgrade --quiet huggingface_hub
# get a token: https://huggingface.co/docs/api-inference/quicktour#get-your-api-token

from getpass import getpass

HUGGINGFACEHUB_API_TOKEN = getpass()
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACEHUB_API_TOKEN

准备示例

from langchain_huggingface import HuggingFaceEndpoint
API Reference:HuggingFaceEndpoint
from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate
API Reference:LLMChain | PromptTemplate
question = "Who won the FIFA World Cup in the year 1994? "

template = """Question: {question}

Answer: Let's think step by step."""

prompt = PromptTemplate.from_template(template)

示例

这里是一个如何访问免费Serverless Endpoints API的HuggingFaceEndpoint集成的示例。

repo_id = "mistralai/Mistral-7B-Instruct-v0.2"

llm = HuggingFaceEndpoint(
repo_id=repo_id,
max_length=128,
temperature=0.5,
huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN,
)
llm_chain = prompt | llm
print(llm_chain.invoke({"question": question}))

专用端点

免费的无服务器API让您可以快速实现解决方案并进行迭代,但由于负载与其他请求共享,因此在大量使用情况下可能会受到速率限制。

对于企业工作负载,最好使用Inference Endpoints - Dedicated。这提供了对完全托管的基础设施的访问,提供了更多的灵活性和速度。这些资源配备了持续的支持和正常运行时间保证,以及自动扩展等选项。

# Set the url to your Inference Endpoint below
your_endpoint_url = "https://fayjubiy2xqn36z0.us-east-1.aws.endpoints.huggingface.cloud"
llm = HuggingFaceEndpoint(
endpoint_url=f"{your_endpoint_url}",
max_new_tokens=512,
top_k=10,
top_p=0.95,
typical_p=0.95,
temperature=0.01,
repetition_penalty=1.03,
)
llm("What did foo say about bar?")

流处理

from langchain_core.callbacks import StreamingStdOutCallbackHandler
from langchain_huggingface import HuggingFaceEndpoint

llm = HuggingFaceEndpoint(
endpoint_url=f"{your_endpoint_url}",
max_new_tokens=512,
top_k=10,
top_p=0.95,
typical_p=0.95,
temperature=0.01,
repetition_penalty=1.03,
streaming=True,
)
llm("What did foo say about bar?", callbacks=[StreamingStdOutCallbackHandler()])

同样的HuggingFaceEndpoint类可以与本地HuggingFace TGI实例一起使用,该实例服务于LLM。查看TGI仓库以了解各种硬件(GPU、TPU、Gaudi...)支持的详细信息。


这个页面有帮助吗?