HuggingFace模型加载器#

class langchain_community.document_loaders.hugging_face_model.HuggingFaceModelLoader(*, search: str | None = None, author: str | None = None, filter: str | None = None, sort: str | None = None, direction: str | None = None, limit: int | None = 3, full: bool | None = None, config: bool | None = None)[source]#

Hugging Face Hub加载模型信息,包括README内容。

此加载器与Hugging Face Models API接口,用于获取和加载模型元数据和README文件。 该API允许您根据特定条件(如模型标签、作者等)搜索和过滤模型。

API URL: https://huggingface.co/api/models DOC URL: https://huggingface.co/docs/hub/en/api

示例

from langchain_community.document_loaders import HuggingFaceModelLoader

# Initialize the loader with search criteria
loader = HuggingFaceModelLoader(search="bert", limit=10)

# Load models
documents = loader.load()

# Iterate through the fetched documents
for doc in documents:
    print(doc.page_content)  # README content of the model
    print(doc.metadata)      # Metadata of the model

初始化 HuggingFaceModelLoader。

Parameters:
  • search (str | None) – 基于仓库及其用户名的子字符串进行过滤。

  • author (str | None) – 按作者或组织过滤模型。

  • filter (str | None) – 基于标签进行过滤。

  • sort (str | None) – 排序时使用的属性。

  • direction (str | None) – 排序的方向。

  • limit (int | None) – 限制获取的模型数量。

  • full (bool | None) – 是否获取大部分模型数据。

  • config (bool | None) – 是否同时获取仓库配置。

属性

BASE_URL

README_BASE_URL

方法

__init__(*[, search, author, filter, sort, ...])

初始化 HuggingFaceModelLoader。

alazy_load()

文档的懒加载器。

aload()

将数据加载到Document对象中。

fetch_models()

从 Hugging Face Hub 获取模型信息。

fetch_readme_content(model_id)

获取给定模型的README内容。

lazy_load()

懒加载模型信息,包括README内容。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(*, search: str | None = None, author: str | None = None, filter: str | None = None, sort: str | None = None, direction: str | None = None, limit: int | None = 3, full: bool | None = None, config: bool | None = None)[source]#

初始化 HuggingFaceModelLoader。

Parameters:
  • search (str | None) – 基于仓库及其用户名的子字符串进行过滤。

  • author (str | None) – 按作者或组织过滤模型。

  • filter (str | None) – 基于标签进行过滤。

  • sort (str | None) – 排序时使用的属性。

  • direction (str | None) – 排序的方向。

  • limit (int | None) – 限制获取的模型数量。

  • full (bool | None) – 是否获取大部分模型数据。

  • config (bool | None) – 是否同时获取仓库配置。

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

fetch_models() List[dict][来源]#

从Hugging Face Hub获取模型信息。

Return type:

列表[字典]

fetch_readme_content(model_id: str) str[来源]#

获取给定模型的README内容。

Parameters:

model_id (str)

Return type:

字符串

lazy_load() Iterator[Document][source]#

延迟加载模型信息,包括README内容。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]