提取子链接#
- langchain_core.utils.html.extract_sub_links(raw_html: str, url: str, *, base_url: str | None = None, pattern: str | Pattern | None = None, prevent_outside: bool = True, exclude_prefixes: Sequence[str] = (), continue_on_failure: bool = False) list[str] [source]#
从原始HTML字符串中提取所有链接并将其转换为绝对路径。
- Parameters:
raw_html (str) – 原始HTML。
url (str) – HTML的URL。
base_url (str | None) – 用于检查外部链接的基础URL。
pattern (str | Pattern | None) – 用于从原始HTML中提取链接的正则表达式。
prevent_outside (bool) – 如果为True,忽略不是基础URL子链接的外部链接。
exclude_prefixes (Sequence[str]) – 排除任何以这些前缀开头的URL。
continue_on_failure (bool) – 如果为True,则在解析特定链接时如果发生异常则继续。否则,抛出异常。
- Returns:
子链接。
- Return type:
列表[str]