langchain_community.document_loaders.tensorflow_datasets.TensorflowDatasetLoader

class langchain_community.document_loaders.tensorflow_datasets.TensorflowDatasetLoader(dataset_name: str, split_name: str, load_max_docs: Optional[int] = 100, sample_to_document_function: Optional[Callable[[Dict], Document]] = None)[source]

从`TensorFlow Dataset`加载。

属性:

dataset_name: 要加载的数据集的名称 split_name: 要加载的拆分名称。 load_max_docs: 加载文档数量的限制。默认为100。 sample_to_document_function: 将数据集样本转换为文档的函数

示例:
from langchain_community.document_loaders import TensorflowDatasetLoader

def mlqaen_example_to_document(example: dict) -> Document:
    return Document(
        page_content=decode_to_str(example["context"]),
        metadata={
            "id": decode_to_str(example["id"]),
            "title": decode_to_str(example["title"]),
            "question": decode_to_str(example["question"]),
            "answer": decode_to_str(example["answers"]["text"][0]),
        },
    )

tsds_client = TensorflowDatasetLoader(
        dataset_name="mlqa/en",
        split_name="test",
        load_max_docs=100,
        sample_to_document_function=mlqaen_example_to_document,
    )

初始化TensorflowDatasetLoader。

参数:

dataset_name:要加载的数据集的名称 split_name:要加载的拆分的名称。 load_max_docs:加载文档数量的限制。默认为100。 sample_to_document_function:将数据集样本转换为文档的函数。

Attributes

load_max_docs

The maximum number of documents to load.

sample_to_document_function

Custom function that transform a dataset sample into a Document.

Methods

__init__(dataset_name, split_name[, ...])

初始化TensorflowDatasetLoader。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

lazy_load()

一个用于文档的惰性加载器。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

Parameters
  • dataset_name (str) –

  • split_name (str) –

  • load_max_docs (Optional[int]) –

  • sample_to_document_function (Optional[Callable[[Dict], Document]]) –

__init__(dataset_name: str, split_name: str, load_max_docs: Optional[int] = 100, sample_to_document_function: Optional[Callable[[Dict], Document]] = None)[source]

初始化TensorflowDatasetLoader。

参数:

dataset_name:要加载的数据集的名称 split_name:要加载的拆分的名称。 load_max_docs:加载文档数量的限制。默认为100。 sample_to_document_function:将数据集样本转换为文档的函数。

Parameters
  • dataset_name (str) –

  • split_name (str) –

  • load_max_docs (Optional[int]) –

  • sample_to_document_function (Optional[Callable[[Dict], Document]]) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

lazy_load() Iterator[Document][source]

一个用于文档的惰性加载器。

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

Examples using TensorflowDatasetLoader