langchain_core.utils.html
.extract_sub_links¶
- langchain_core.utils.html.extract_sub_links(raw_html: str, url: str, *, base_url: Optional[str] = None, pattern: Optional[Union[str, Pattern]] = None, prevent_outside: bool = True, exclude_prefixes: Sequence[str] = (), continue_on_failure: bool = False) List[str] [source]¶
从原始html字符串中提取所有链接并转换为绝对路径。
- 参数:
raw_html:原始html。 url:html的url。 base_url:用于检查外部链接的基本url。 pattern:用于从原始html中提取链接的正则表达式。 prevent_outside:如果为True,则忽略不是基本url的子链接的外部链接。 exclude_prefixes:排除以这些前缀开头的任何URL。 continue_on_failure:如果为True,则在解析特定链接时出现异常时继续。否则,引发异常。
- 返回:
List[str]:子链接
- Parameters
raw_html (str) –
url (str) –
base_url (Optional[str]) –
pattern (Optional[Union[str, Pattern]]) –
prevent_outside (bool) –
exclude_prefixes (Sequence[str]) –
continue_on_failure (bool) –
- Return type
List[str]