提取子链接#

langchain_core.utils.html.extract_sub_links(raw_html: str, url: str, *, base_url: str | None = None, pattern: str | Pattern | None = None, prevent_outside: bool = True, exclude_prefixes: Sequence[str] = (), continue_on_failure: bool = False) → list[str][source]#

从原始HTML字符串中提取所有链接并将其转换为绝对路径。

Parameters:

raw_html (str) – 原始HTML。
url (str) – HTML的URL。
base_url (str | None) – 用于检查外部链接的基础URL。
pattern (str | Pattern | None) – 用于从原始HTML中提取链接的正则表达式。
prevent_outside (bool) – 如果为True，忽略不是基础URL子链接的外部链接。
exclude_prefixes (Sequence[str]) – 排除任何以这些前缀开头的URL。
continue_on_failure (bool) – 如果为True，则在解析特定链接时如果发生异常则继续。否则，抛出异常。

Returns:

子链接。

Return type:

列表[str]