Index

节点解析器接口。

BaseExtractor #

Bases: TransformComponent

元数据提取器。

Source code in llama_index/core/extractors/interface.py

class BaseExtractor(TransformComponent):
    """元数据提取器。"""

    is_text_node_only: bool = True

    show_progress: bool = Field(default=True, description="Whether to show progress.")

    metadata_mode: MetadataMode = Field(
        default=MetadataMode.ALL, description="Metadata mode to use when reading nodes."
    )

    node_text_template: str = Field(
        default=DEFAULT_NODE_TEXT_TEMPLATE,
        description="Template to represent how node text is mixed with metadata text.",
    )
    disable_template_rewrite: bool = Field(
        default=False, description="Disable the node template rewrite."
    )

    in_place: bool = Field(
        default=True, description="Whether to process nodes in place."
    )

    num_workers: int = Field(
        default=4,
        description="Number of workers to use for concurrent async processing.",
    )

    @classmethod
    def from_dict(cls, data: Dict[str, Any], **kwargs: Any) -> Self:  # type: ignore
        if isinstance(kwargs, dict):
            data.update(kwargs)

        data.pop("class_name", None)

        llm_predictor = data.get("llm_predictor", None)
        if llm_predictor:
            from llama_index.core.llm_predictor.loading import load_predictor

            llm_predictor = load_predictor(llm_predictor)
            data["llm_predictor"] = llm_predictor

        llm = data.get("llm", None)
        if llm:
            from llama_index.core.llms.loading import load_llm

            llm = load_llm(llm)
            data["llm"] = llm

        return cls(**data)

    @classmethod
    def class_name(cls) -> str:
        """获取类名。"""
        return "MetadataExtractor"

    @abstractmethod
    async def aextract(self, nodes: Sequence[BaseNode]) -> List[Dict]:
        """提取节点序列的元数据，返回与每个节点对应的元数据字典列表。

Args:
    nodes（Sequence[Document]）：要提取元数据的节点
"""

    def extract(self, nodes: Sequence[BaseNode]) -> List[Dict]:
        """提取节点序列的元数据，返回与每个节点对应的元数据字典列表。

Args:
    nodes（Sequence[Document]）：要提取元数据的节点
"""
        return asyncio_run(self.aextract(nodes))

    async def aprocess_nodes(
        self,
        nodes: List[BaseNode],
        excluded_embed_metadata_keys: Optional[List[str]] = None,
        excluded_llm_metadata_keys: Optional[List[str]] = None,
        **kwargs: Any,
    ) -> List[BaseNode]:
        """后处理从文档解析的节点。

允许链接提取器进行链接。

Args:
    nodes（List[BaseNode]）：需要后处理的节点
    excluded_embed_metadata_keys（Optional[List[str]）：
        要从嵌入元数据中排除的键
    excluded_llm_metadata_keys（Optional[List[str]）：
        要从llm元数据中排除的键
"""
        if self.in_place:
            new_nodes = nodes
        else:
            new_nodes = [deepcopy(node) for node in nodes]

        cur_metadata_list = await self.aextract(new_nodes)
        for idx, node in enumerate(new_nodes):
            node.metadata.update(cur_metadata_list[idx])

        for idx, node in enumerate(new_nodes):
            if excluded_embed_metadata_keys is not None:
                node.excluded_embed_metadata_keys.extend(excluded_embed_metadata_keys)
            if excluded_llm_metadata_keys is not None:
                node.excluded_llm_metadata_keys.extend(excluded_llm_metadata_keys)
            if not self.disable_template_rewrite:
                if isinstance(node, TextNode):
                    cast(TextNode, node).text_template = self.node_text_template

        return new_nodes

    def process_nodes(
        self,
        nodes: List[BaseNode],
        excluded_embed_metadata_keys: Optional[List[str]] = None,
        excluded_llm_metadata_keys: Optional[List[str]] = None,
        **kwargs: Any,
    ) -> List[BaseNode]:
        return asyncio_run(
            self.aprocess_nodes(
                nodes,
                excluded_embed_metadata_keys=excluded_embed_metadata_keys,
                excluded_llm_metadata_keys=excluded_llm_metadata_keys,
                **kwargs,
            )
        )

    def __call__(self, nodes: List[BaseNode], **kwargs: Any) -> List[BaseNode]:
        """后处理从文档中解析出的节点。

允许链接提取器进行链接。

Args:
    nodes（List[BaseNode]）：需要后处理的节点
"""
        return self.process_nodes(nodes, **kwargs)

    async def acall(self, nodes: List[BaseNode], **kwargs: Any) -> List[BaseNode]:
        """后处理从文档中解析出的节点。

允许链接提取器进行链接。

Args:
    nodes（List[BaseNode]）：需要后处理的节点
"""
        return await self.aprocess_nodes(nodes, **kwargs)

class_name `classmethod` #

class_name() -> str

获取类名。

Source code in llama_index/core/extractors/interface.py

@classmethod
def class_name(cls) -> str:
    """获取类名。"""
    return "MetadataExtractor"

aextract `abstractmethod` `async` #

aextract(nodes: Sequence[BaseNode]) -> List[Dict]

提取节点序列的元数据，返回与每个节点对应的元数据字典列表。

Source code in llama_index/core/extractors/interface.py

    @abstractmethod
    async def aextract(self, nodes: Sequence[BaseNode]) -> List[Dict]:
        """提取节点序列的元数据，返回与每个节点对应的元数据字典列表。

Args:
    nodes（Sequence[Document]）：要提取元数据的节点
"""

extract #

extract(nodes: Sequence[BaseNode]) -> List[Dict]

提取节点序列的元数据，返回与每个节点对应的元数据字典列表。

Source code in llama_index/core/extractors/interface.py

    def extract(self, nodes: Sequence[BaseNode]) -> List[Dict]:
        """提取节点序列的元数据，返回与每个节点对应的元数据字典列表。

Args:
    nodes（Sequence[Document]）：要提取元数据的节点
"""
        return asyncio_run(self.aextract(nodes))

aprocess_nodes `async` #

aprocess_nodes(
    nodes: List[BaseNode],
    excluded_embed_metadata_keys: Optional[
        List[str]
    ] = None,
    excluded_llm_metadata_keys: Optional[List[str]] = None,
    **kwargs: Any
) -> List[BaseNode]

后处理从文档解析的节点。

允许链接提取器进行链接。

Source code in llama_index/core/extractors/interface.py

    async def aprocess_nodes(
        self,
        nodes: List[BaseNode],
        excluded_embed_metadata_keys: Optional[List[str]] = None,
        excluded_llm_metadata_keys: Optional[List[str]] = None,
        **kwargs: Any,
    ) -> List[BaseNode]:
        """后处理从文档解析的节点。

允许链接提取器进行链接。

Args:
    nodes（List[BaseNode]）：需要后处理的节点
    excluded_embed_metadata_keys（Optional[List[str]）：
        要从嵌入元数据中排除的键
    excluded_llm_metadata_keys（Optional[List[str]）：
        要从llm元数据中排除的键
"""
        if self.in_place:
            new_nodes = nodes
        else:
            new_nodes = [deepcopy(node) for node in nodes]

        cur_metadata_list = await self.aextract(new_nodes)
        for idx, node in enumerate(new_nodes):
            node.metadata.update(cur_metadata_list[idx])

        for idx, node in enumerate(new_nodes):
            if excluded_embed_metadata_keys is not None:
                node.excluded_embed_metadata_keys.extend(excluded_embed_metadata_keys)
            if excluded_llm_metadata_keys is not None:
                node.excluded_llm_metadata_keys.extend(excluded_llm_metadata_keys)
            if not self.disable_template_rewrite:
                if isinstance(node, TextNode):
                    cast(TextNode, node).text_template = self.node_text_template

        return new_nodes

acall `async` #

acall(
    nodes: List[BaseNode], **kwargs: Any
) -> List[BaseNode]

后处理从文档中解析出的节点。

允许链接提取器进行链接。

Source code in llama_index/core/extractors/interface.py

    async def acall(self, nodes: List[BaseNode], **kwargs: Any) -> List[BaseNode]:
        """后处理从文档中解析出的节点。

允许链接提取器进行链接。

Args:
    nodes（List[BaseNode]）：需要后处理的节点
"""
        return await self.aprocess_nodes(nodes, **kwargs)

Index

BaseExtractor #

class_name classmethod #

aextract abstractmethod async #

extract #

aprocess_nodes async #

acall async #

class_name `classmethod` #

aextract `abstractmethod` `async` #

aprocess_nodes `async` #

acall `async` #