LangSmithLoader#
- class langchain_core.document_loaders.langsmith.LangSmithLoader(*, dataset_id: UUID | str | None = None, dataset_name: str | None = None, example_ids: Sequence[UUID | str] | None = None, as_of: datetime | str | None = None, splits: Sequence[str] | None = None, inline_s3_urls: bool = True, offset: int = 0, limit: int | None = None, metadata: dict | None = None, filter: str | None = None, content_key: str = '', format_content: Callable[[...], str] | None = None, client: Client | None = None, **client_kwargs: Any)[来源]#
将LangSmith数据集示例加载为文档。
将示例输入加载为文档页面内容,并将整个示例放入文档元数据中。这使您能够轻松地从加载的文档中创建少量示例检索器。
Lazy load
from langchain_core.document_loaders import LangSmithLoader loader = LangSmithLoader(dataset_id="...", limit=100) docs = [] for doc in loader.lazy_load(): docs.append(doc)
# -> [Document("...", metadata={"inputs": {...}, "outputs": {...}, ...}), ...]
在版本0.2.34中添加。
- Parameters:
dataset_id (UUID | str | None) – 用于过滤的数据集的ID。默认为None。
dataset_name (str | None) – 用于过滤的数据集名称。默认为 None。
content_key (str) – 设置为文档页面内容的输入键。
"."
字符 被解释为嵌套键。例如,content_key="first.second"
将 导致Document(page_content=format_content(example.inputs["first"]["second"]))
format_content (Callable[[...], str] | None) – 用于将从示例输入中提取的内容转换为字符串的函数。默认为将内容JSON编码。
example_ids (Sequence[UUID | str] | None) – 用于过滤的示例ID。默认为None。
as_of (datetime | str | None) – 数据集版本标签或时间戳,用于检索截至该时间点的示例。 响应示例将仅包括在标记(或时间戳)版本时存在的示例。
splits (Sequence[str] | None) – 数据集分割的列表,这些分割是数据集的划分,例如‘train’、‘test’或‘validation’。仅返回指定分割的示例。
inline_s3_urls (bool) – 是否内联S3 URL。默认为True。
offset (int) – 起始偏移量。默认为0。
limit (int | None) – 返回的最大示例数量。
filter (str | None) – 一个结构化的过滤字符串,用于应用于示例。
client (Client | None) – LangSmith 客户端。如果未提供,将从以下参数初始化。
client_kwargs (Any) – 传递给LangSmith客户端初始化的关键字参数。只有在未指定
client
时才应指定。metadata (dict | None)
方法
__init__
(*[, dataset_id, dataset_name, ...])一个用于文档的懒加载器。
aload
()将数据加载到Document对象中。
一个用于文档的懒加载器。
load
()将数据加载到Document对象中。
load_and_split
([text_splitter])加载文档并将其分割成块。
- __init__(*, dataset_id: UUID | str | None = None, dataset_name: str | None = None, example_ids: Sequence[UUID | str] | None = None, as_of: datetime | str | None = None, splits: Sequence[str] | None = None, inline_s3_urls: bool = True, offset: int = 0, limit: int | None = None, metadata: dict | None = None, filter: str | None = None, content_key: str = '', format_content: Callable[[...], str] | None = None, client: Client | None = None, **client_kwargs: Any) None [source]#
- Parameters:
dataset_id (UUID | str | None) – 用于过滤的数据集的ID。默认为None。
dataset_name (str | None) – 用于过滤的数据集名称。默认为 None。
content_key (str) – 设置为文档页面内容的输入键。
"."
字符 被解释为嵌套键。例如,content_key="first.second"
将 导致Document(page_content=format_content(example.inputs["first"]["second"]))
format_content (Callable[[...], str] | None) – 用于将从示例输入中提取的内容转换为字符串的函数。默认为将内容JSON编码。
example_ids (Sequence[UUID | str] | None) – 用于过滤的示例ID。默认为None。
as_of (datetime | str | None) – 数据集版本标签或时间戳,用于检索截至该时间点的示例。 响应示例将仅包括在标记(或时间戳)版本时存在的示例。
splits (Sequence[str] | None) – 数据集分割的列表,这些分割是数据集的划分,例如‘train’、‘test’或‘validation’。仅返回指定分割的示例。
inline_s3_urls (bool) – 是否内联S3 URL。默认为True。
offset (int) – 起始偏移量。默认为0。
limit (int | None) – 返回的最大示例数量。
filter (str | None) – 一个结构化的过滤字符串,用于应用于示例。
client (Client | None) – LangSmith 客户端。如果未提供,将从以下参数初始化。
client_kwargs (Any) – 传递给LangSmith客户端初始化的关键字参数。只有在未指定
client
时才应指定。metadata (dict | None)
- Return type:
无
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 LangSmithLoader 的示例