BaseDocumentTransformer#

class langchain_core.documents.transformers.BaseDocumentTransformer[来源]#

文档转换的抽象基类。

文档转换接受一系列文档并返回一系列转换后的文档。

示例

class EmbeddingsRedundantFilter(BaseDocumentTransformer, BaseModel):
    embeddings: Embeddings
    similarity_fn: Callable = cosine_similarity
    similarity_threshold: float = 0.95

    class Config:
        arbitrary_types_allowed = True

    def transform_documents(
        self, documents: Sequence[Document], **kwargs: Any
    ) -> Sequence[Document]:
        stateful_documents = get_stateful_documents(documents)
        embedded_documents = _get_embeddings_from_stateful_docs(
            self.embeddings, stateful_documents
        )
        included_idxs = _filter_similar_embeddings(
            embedded_documents, self.similarity_fn, self.similarity_threshold
        )
        return [stateful_documents[i] for i in sorted(included_idxs)]

    async def atransform_documents(
        self, documents: Sequence[Document], **kwargs: Any
    ) -> Sequence[Document]:
        raise NotImplementedError

方法

atransform_documents(documents, **kwargs)

异步转换文档列表。

transform_documents(documents, **kwargs)

转换文档列表。

async atransform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]#

异步转换文档列表。

Parameters:
  • documents (Sequence[Document]) – 需要转换的文档序列。

  • kwargs (Any)

Returns:

一系列转换后的文档。

Return type:

序列[Document]

abstract transform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]#

转换文档列表。

Parameters:
  • documents (Sequence[Document]) – 需要转换的文档序列。

  • kwargs (Any)

Returns:

一系列转换后的文档。

Return type:

序列[Document]