Toggle Menu

`langchain_core.utils.html`.extract_sub_links¶

langchain_core.utils.html.extract_sub_links(raw_html: str, url: str, *, base_url: Optional[str] = None, pattern: Optional[Union[str, Pattern]] = None, prevent_outside: bool = True, exclude_prefixes: Sequence[str] = (), continue_on_failure: bool = False) → List[str][source]¶

从原始html字符串中提取所有链接并转换为绝对路径。

参数：: raw_html：原始html。 url：html的url。 base_url：用于检查外部链接的基本url。 pattern：用于从原始html中提取链接的正则表达式。 prevent_outside：如果为True，则忽略不是基本url的子链接的外部链接。 exclude_prefixes：排除以这些前缀开头的任何URL。 continue_on_failure：如果为True，则在解析特定链接时出现异常时继续。否则，引发异常。
返回：: List[str]：子链接

Parameters

raw_html (str) –
url (str) –
base_url (Optional[str]) –
pattern (Optional[Union[str, Pattern]]) –
prevent_outside (bool) –
exclude_prefixes (Sequence[str]) –
continue_on_failure (bool) –

Return type

List[str]