langchain_community.document_loaders.hugging_face_model.HuggingFaceModelLoader

class langchain_community.document_loaders.hugging_face_model.HuggingFaceModelLoader(*, search: Optional[str] = None, author: Optional[str] = None, filter: Optional[str] = None, sort: Optional[str] = None, direction: Optional[str] = None, limit: Optional[int] = 3, full: Optional[bool] = None, config: Optional[bool] = None)[source]

从`Hugging Face Hub`加载模型信息,包括README内容。

该加载器与Hugging Face Models API进行交互,以获取和加载模型元数据和README文件。 该API允许您根据特定标准(如模型标签、作者等)搜索和过滤模型。

API URL: https://huggingface.co/api/models DOC URL: https://huggingface.co/docs/hub/en/api

示例:

from langchain_community.document_loaders import HuggingFaceModelLoader

# 使用搜索条件初始化加载器
loader = HuggingFaceModelLoader(search="bert", limit=10)

# 加载模型
documents = loader.load()

# 遍历获取的文档
for doc in documents:
    print(doc.page_content)  # 模型的README内容
    print(doc.metadata)      # 模型的元数据

初始化HuggingFaceModelLoader。

参数:

search: 根据存储库及其用户名的子字符串进行过滤。 author: 按作者或组织过滤模型。 filter: 根据标签进行过滤。 sort: 排序时要使用的属性。 direction: 排序方向。 limit: 限制获取的模型数量。 full: 是否获取大部分模型数据。 config: 是否还获取存储库配置。

Attributes

BASE_URL

README_BASE_URL

Methods

__init__(*[, search, author, filter, sort, ...])

初始化HuggingFaceModelLoader。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

fetch_models()

从Hugging Face Hub获取模型信息。

fetch_readme_content(model_id)

获取给定模型的README内容。

lazy_load()

延迟加载模型信息,包括README内容。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

Parameters
  • search (Optional[str]) –

  • author (Optional[str]) –

  • filter (Optional[str]) –

  • sort (Optional[str]) –

  • direction (Optional[str]) –

  • limit (Optional[int]) –

  • full (Optional[bool]) –

  • config (Optional[bool]) –

__init__(*, search: Optional[str] = None, author: Optional[str] = None, filter: Optional[str] = None, sort: Optional[str] = None, direction: Optional[str] = None, limit: Optional[int] = 3, full: Optional[bool] = None, config: Optional[bool] = None)[source]

初始化HuggingFaceModelLoader。

参数:

search: 根据存储库及其用户名的子字符串进行过滤。 author: 按作者或组织过滤模型。 filter: 根据标签进行过滤。 sort: 排序时要使用的属性。 direction: 排序方向。 limit: 限制获取的模型数量。 full: 是否获取大部分模型数据。 config: 是否还获取存储库配置。

Parameters
  • search (Optional[str]) –

  • author (Optional[str]) –

  • filter (Optional[str]) –

  • sort (Optional[str]) –

  • direction (Optional[str]) –

  • limit (Optional[int]) –

  • full (Optional[bool]) –

  • config (Optional[bool]) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

fetch_models() List[dict][source]

从Hugging Face Hub获取模型信息。

Return type

List[dict]

fetch_readme_content(model_id: str) str[source]

获取给定模型的README内容。

Parameters

model_id (str) –

Return type

str

lazy_load() Iterator[Document][source]

延迟加载模型信息,包括README内容。

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]