Source code for langchain.chains.combine_documents.refine

"""通过第一遍处理文档，然后在更多文档上进行细化。"""

from __future__ import annotations

from typing import Any, Dict, List, Tuple

from langchain_core.callbacks import Callbacks
from langchain_core.documents import Document
from langchain_core.prompts import BasePromptTemplate, format_document
from langchain_core.prompts.prompt import PromptTemplate
from langchain_core.pydantic_v1 import Extra, Field, root_validator

from langchain.chains.combine_documents.base import (
    BaseCombineDocumentsChain,
)
from langchain.chains.llm import LLMChain


def _get_default_document_prompt() -> PromptTemplate:
    return PromptTemplate(input_variables=["page_content"], template="{page_content}")


[docs]class RefineDocumentsChain(BaseCombineDocumentsChain):
    """将文档合并，首先进行第一遍处理，然后在更多文档上进行细化。

    该算法首先在第一个文档上调用`initial_llm_chain`，传入该第一个文档，并生成一个名为`initial_response_name`的新变量。

    然后，它循环遍历每个剩余文档。这称为“细化”步骤。
    它调用`refine_llm_chain`，传入该文档以及前一个响应，前一个响应的变量名为`initial_response_name`。

    示例：
        .. code-block:: python

            from langchain.chains import RefineDocumentsChain, LLMChain
            from langchain_core.prompts import PromptTemplate
            from langchain_community.llms import OpenAI

            # 这控制每个文档的格式。具体来说，它将传递给`format_document` - 有关更多详细信息，请参阅该函数。
            document_prompt = PromptTemplate(
                input_variables=["page_content"],
                 template="{page_content}"
            )
            document_variable_name = "context"
            llm = OpenAI()
            # 这里的提示应该将`document_variable_name`作为输入变量
            prompt = PromptTemplate.from_template(
                "总结这段内容：{context}"
            )
            initial_llm_chain = LLMChain(llm=llm, prompt=prompt)
            initial_response_name = "prev_response"
            # 这里的提示应该将`document_variable_name`以及`initial_response_name`作为输入变量
            prompt_refine = PromptTemplate.from_template(
                "这是您的第一个摘要：{prev_response}。"
                "现在根据以下内容添加内容：{context}"
            )
            refine_llm_chain = LLMChain(llm=llm, prompt=prompt_refine)
            chain = RefineDocumentsChain(
                initial_llm_chain=initial_llm_chain,
                refine_llm_chain=refine_llm_chain,
                document_prompt=document_prompt,
                document_variable_name=document_variable_name,
                initial_response_name=initial_response_name,
            )"""

    initial_llm_chain: LLMChain
    """用于初始文档的LLM链。"""
    refine_llm_chain: LLMChain
    """用于细化时使用的LLM链。"""
    document_variable_name: str
    """初始_llm_chain 中放置文档的变量名。
如果在 initial_llm_chain 中只有一个变量，则无需提供此变量。"""
    initial_response_name: str
    """用于在细化时格式化初始响应的变量名称。"""
    document_prompt: BasePromptTemplate = Field(
        default_factory=_get_default_document_prompt
    )
    """传递给`format_document`的用于格式化每个文档的提示。"""
    return_intermediate_steps: bool = False
    """将细化步骤的结果返回到输出中。"""

    @property
    def output_keys(self) -> List[str]:
        """期望输入键。

:元数据 私有:
"""
        _output_keys = super().output_keys
        if self.return_intermediate_steps:
            _output_keys = _output_keys + ["intermediate_steps"]
        return _output_keys

    class Config:
        """这个pydantic对象的配置。"""

        extra = Extra.forbid
        arbitrary_types_allowed = True

    @root_validator(pre=True)
    def get_return_intermediate_steps(cls, values: Dict) -> Dict:
        """为了向后兼容。"""
        if "return_refine_steps" in values:
            values["return_intermediate_steps"] = values["return_refine_steps"]
            del values["return_refine_steps"]
        return values

    @root_validator(pre=True)
    def get_default_document_variable_name(cls, values: Dict) -> Dict:
        """获取默认文档变量名称，如果未提供。"""
        if "document_variable_name" not in values:
            llm_chain_variables = values["initial_llm_chain"].prompt.input_variables
            if len(llm_chain_variables) == 1:
                values["document_variable_name"] = llm_chain_variables[0]
            else:
                raise ValueError(
                    "document_variable_name must be provided if there are "
                    "multiple llm_chain input_variables"
                )
        else:
            llm_chain_variables = values["initial_llm_chain"].prompt.input_variables
            if values["document_variable_name"] not in llm_chain_variables:
                raise ValueError(
                    f"document_variable_name {values['document_variable_name']} was "
                    f"not found in llm_chain input_variables: {llm_chain_variables}"
                )
        return values

[docs]    def combine_docs(
        self, docs: List[Document], callbacks: Callbacks = None, **kwargs: Any
    ) -> Tuple[str, dict]:
        """将首先通过映射将所有内容连接起来，然后将其填充到最终链中。

参数：
    docs：需要合并的文档列表
    callbacks：要传递的回调函数
    **kwargs：要传递给LLM调用的其他参数（例如文档之外的其他输入变量）

返回值：
    返回的第一个元素是单个字符串输出。返回的第二个元素是要返回的其他键的字典。
"""
        inputs = self._construct_initial_inputs(docs, **kwargs)
        res = self.initial_llm_chain.predict(callbacks=callbacks, **inputs)
        refine_steps = [res]
        for doc in docs[1:]:
            base_inputs = self._construct_refine_inputs(doc, res)
            inputs = {**base_inputs, **kwargs}
            res = self.refine_llm_chain.predict(callbacks=callbacks, **inputs)
            refine_steps.append(res)
        return self._construct_result(refine_steps, res)

[docs]    async def acombine_docs(
        self, docs: List[Document], callbacks: Callbacks = None, **kwargs: Any
    ) -> Tuple[str, dict]:
        """异步通过映射第一个链条覆盖所有内容，然后填充到最终链条中。

参数：
    docs: 需要合并的文档列表
    callbacks: 需要传递的回调函数
    **kwargs: 需要传递给LLM调用的其他参数（例如文档之外的其他输入变量）

返回值：
    返回的第一个元素是单个字符串输出。返回的第二个元素是要返回的其他键的字典。
"""
        inputs = self._construct_initial_inputs(docs, **kwargs)
        res = await self.initial_llm_chain.apredict(callbacks=callbacks, **inputs)
        refine_steps = [res]
        for doc in docs[1:]:
            base_inputs = self._construct_refine_inputs(doc, res)
            inputs = {**base_inputs, **kwargs}
            res = await self.refine_llm_chain.apredict(callbacks=callbacks, **inputs)
            refine_steps.append(res)
        return self._construct_result(refine_steps, res)

    def _construct_result(self, refine_steps: List[str], res: str) -> Tuple[str, dict]:
        if self.return_intermediate_steps:
            extra_return_dict = {"intermediate_steps": refine_steps}
        else:
            extra_return_dict = {}
        return res, extra_return_dict

    def _construct_refine_inputs(self, doc: Document, res: str) -> Dict[str, Any]:
        return {
            self.document_variable_name: format_document(doc, self.document_prompt),
            self.initial_response_name: res,
        }

    def _construct_initial_inputs(
        self, docs: List[Document], **kwargs: Any
    ) -> Dict[str, Any]:
        base_info = {"page_content": docs[0].page_content}
        base_info.update(docs[0].metadata)
        document_info = {k: base_info[k] for k in self.document_prompt.input_variables}
        base_inputs: dict = {
            self.document_variable_name: self.document_prompt.format(**document_info)
        }
        inputs = {**base_inputs, **kwargs}
        return inputs

    @property
    def _chain_type(self) -> str:
        return "refine_documents_chain"