LangSmithLoader#

将LangSmith数据集示例加载为文档。

将示例输入加载为文档页面内容，并将整个示例放入文档元数据中。这使您能够轻松地从加载的文档中创建少量示例检索器。

在版本0.2.34中添加。

Parameters:

dataset_id (UUID | str | None) – 用于过滤的数据集的ID。默认为None。
dataset_name (str | None) – 用于过滤的数据集名称。默认为 None。
content_key (str) – 设置为文档页面内容的输入键。"." 字符被解释为嵌套键。例如，content_key="first.second" 将导致 Document(page_content=format_content(example.inputs["first"]["second"]))
format_content (Callable[[...], str] | None) – 用于将从示例输入中提取的内容转换为字符串的函数。默认为将内容JSON编码。
example_ids (Sequence[UUID | str] | None) – 用于过滤的示例ID。默认为None。
as_of (datetime | str | None) – 数据集版本标签或时间戳，用于检索截至该时间点的示例。响应示例将仅包括在标记（或时间戳）版本时存在的示例。
splits (Sequence[str] | None) – 数据集分割的列表，这些分割是数据集的划分，例如‘train’、‘test’或‘validation’。仅返回指定分割的示例。
inline_s3_urls (bool) – 是否内联S3 URL。默认为True。
offset (int) – 起始偏移量。默认为0。
limit (int | None) – 返回的最大示例数量。
filter (str | None) – 一个结构化的过滤字符串，用于应用于示例。
client (Client | None) – LangSmith 客户端。如果未提供，将从以下参数初始化。
client_kwargs (Any) – 传递给LangSmith客户端初始化的关键字参数。只有在未指定client时才应指定。
metadata (dict | None)

方法

`__init__`(*[, dataset_id, dataset_name, ...])
`alazy_load`()	一个用于文档的懒加载器。
`aload`()	将数据加载到Document对象中。
`lazy_load`()	一个用于文档的懒加载器。
`load`()	将数据加载到Document对象中。
`load_and_split`([text_splitter])	加载文档并将其分割成块。

Parameters:

dataset_id (UUID | str | None) – 用于过滤的数据集的ID。默认为None。
dataset_name (str | None) – 用于过滤的数据集名称。默认为 None。
content_key (str) – 设置为文档页面内容的输入键。"." 字符被解释为嵌套键。例如，content_key="first.second" 将导致 Document(page_content=format_content(example.inputs["first"]["second"]))
format_content (Callable[[...], str] | None) – 用于将从示例输入中提取的内容转换为字符串的函数。默认为将内容JSON编码。
example_ids (Sequence[UUID | str] | None) – 用于过滤的示例ID。默认为None。
as_of (datetime | str | None) – 数据集版本标签或时间戳，用于检索截至该时间点的示例。响应示例将仅包括在标记（或时间戳）版本时存在的示例。
splits (Sequence[str] | None) – 数据集分割的列表，这些分割是数据集的划分，例如‘train’、‘test’或‘validation’。仅返回指定分割的示例。
inline_s3_urls (bool) – 是否内联S3 URL。默认为True。
offset (int) – 起始偏移量。默认为0。
limit (int | None) – 返回的最大示例数量。
filter (str | None) – 一个结构化的过滤字符串，用于应用于示例。
client (Client | None) – LangSmith 客户端。如果未提供，将从以下参数初始化。
client_kwargs (Any) – 传递给LangSmith客户端初始化的关键字参数。只有在未指定client时才应指定。
metadata (dict | None)

Return type:

无

async alazy_load() → AsyncIterator[Document]#

文档的懒加载器。

Return type:: AsyncIterator[Document]

async aload() → list[Document]#

将数据加载到Document对象中。

Return type:: 列表[Document]

lazy_load() → Iterator[Document][来源]#

文档的懒加载器。

Return type:: 迭代器[文档]

load() → list[Document]#

将数据加载到Document对象中。

Return type:: 列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) → list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用！

Parameters:: text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
Returns:: 文档列表。
Return type:: 列表[Document]

使用 LangSmithLoader 的示例

LangSmithLoader