Tensorflow数据集加载器#
- class langchain_community.document_loaders.tensorflow_datasets.TensorflowDatasetLoader(dataset_name: str, split_name: str, load_max_docs: int | None = 100, sample_to_document_function: Callable[[Dict], Document] | None = None)[source]#
从TensorFlow Dataset加载。
- dataset_name#
要加载的数据集的名称
- split_name#
要加载的拆分的名称。
- load_max_docs#
加载文档数量的限制。默认为100。
- sample_to_document_function#
一个将数据集样本转换为文档的函数
示例
from langchain_community.document_loaders import TensorflowDatasetLoader def mlqaen_example_to_document(example: dict) -> Document: return Document( page_content=decode_to_str(example["context"]), metadata={ "id": decode_to_str(example["id"]), "title": decode_to_str(example["title"]), "question": decode_to_str(example["question"]), "answer": decode_to_str(example["answers"]["text"][0]), }, ) tsds_client = TensorflowDatasetLoader( dataset_name="mlqa/en", split_name="test", load_max_docs=100, sample_to_document_function=mlqaen_example_to_document, )
初始化 TensorflowDatasetLoader。
- Parameters:
dataset_name (str) – 要加载的数据集的名称
split_name (str) – 要加载的拆分的名称。
load_max_docs (int | None) – 加载文档数量的限制。默认为100。
sample_to_document_function (Callable[[Dict], Document] | None) – 一个将数据集样本转换为Document的函数。
属性
方法
__init__
(dataset_name, split_name[, ...])初始化 TensorflowDatasetLoader。
一个用于文档的懒加载器。
aload
()将数据加载到Document对象中。
一个用于文档的懒加载器。
load
()将数据加载到Document对象中。
load_and_split
([text_splitter])加载文档并将其分割成块。
- __init__(dataset_name: str, split_name: str, load_max_docs: int | None = 100, sample_to_document_function: Callable[[Dict], Document] | None = None)[source]#
初始化 TensorflowDatasetLoader。
- Parameters:
dataset_name (str) – 要加载的数据集的名称
split_name (str) – 要加载的拆分的名称。
load_max_docs (int | None) – 加载文档数量的限制。默认为100。
sample_to_document_function (Callable[[Dict], Document] | None) – 一个将数据集样本转换为Document的函数。
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 TensorflowDatasetLoader 的示例