Skip to main content
Ctrl+K
🦜🔗 LangChain  documentation - Home 🦜🔗 LangChain  documentation - Home
  • 参考
Ctrl+K
Docs
  • GitHub
  • X / Twitter
Ctrl+K
  • 参考
Docs
  • GitHub
  • X / Twitter

章节导航

基础包

  • Core
    • agents
    • beta
    • caches
    • callbacks
    • chat_history
    • chat_loaders
    • chat_sessions
    • document_loaders
    • documents
    • embeddings
    • example_selectors
    • exceptions
    • globals
    • indexing
    • language_models
    • load
    • messages
    • output_parsers
    • outputs
    • prompt_values
    • prompts
    • rate_limiters
    • retrievers
    • runnables
    • stores
    • structured_query
    • sys_info
    • tools
    • tracers
    • utils
      • NoLock
      • Tee
      • aclosing
      • atee
      • StrictFormatter
      • FunctionDescription
      • ToolDescription
      • NoLock
      • Tee
      • safetee
      • ChevronError
      • abatch_iterate
      • py_anext
      • tee_peer
      • env_var_is_set
      • get_from_dict_or_env
      • get_from_env
      • convert_to_openai_function
      • convert_to_openai_tool
      • tool_example_to_messages
      • extract_sub_links
      • find_all_links
      • get_bolded_text
      • get_color_mapping
      • get_colored_text
      • print_text
      • is_interactive_env
      • batch_iterate
      • tee_peer
      • parse_and_check_json_markdown
      • parse_json_markdown
      • parse_partial_json
      • dereference_refs
      • grab_literal
      • l_sa_check
      • parse_tag
      • r_sa_check
      • render
      • tokenize
      • create_model
      • create_model_v2
      • get_fields
      • get_pydantic_major_version
      • is_basemodel_instance
      • is_basemodel_subclass
      • is_pydantic_v1_subclass
      • is_pydantic_v2_subclass
      • pre_init
      • comma_list
      • stringify_dict
      • stringify_value
      • build_extra_kwargs
      • check_package_version
      • convert_to_secret_str
      • from_env
      • get_pydantic_field_names
      • guard_import
      • mock_now
      • raise_for_status_with_text
      • secret_from_env
      • xor_args
      • convert_pydantic_to_openai_function
      • convert_pydantic_to_openai_tool
      • convert_python_function_to_openai_function
      • format_tool_to_openai_function
      • format_tool_to_openai_tool
      • try_load_from_hub
    • vectorstores
  • Langchain
  • 文本分割器
  • 社区
  • 实验性

集成

  • AI21
  • Anthropic
  • AstraDB
  • AWS
  • Azure 动态会话
  • Cerebras
  • Chroma
  • Cohere
  • Couchbase
  • Databricks
  • Elasticsearch
  • Exa
  • Fireworks
  • Google 社区
  • Google GenAI
  • Google VertexAI
  • Groq
  • Huggingface
  • IBM
  • Milvus
  • MistralAI
  • Neo4J
  • Nomic
  • Nvidia AI 端点
  • Ollama
  • OpenAI
  • Pinecone
  • Postgres
  • Prompty
  • Qdrant
  • Redis
  • Sema4
  • Snowflake
  • Sqlserver
  • 标准测试
  • Together
  • 非结构化
  • Upstage
  • VoyageAI
  • Weaviate
  • XAI
  • LangChain Python API 参考
  • langchain-core: 0.3.29
  • utils
  • extract_sub_links

提取子链接#

langchain_core.utils.html.extract_sub_links(raw_html: str, url: str, *, base_url: str | None = None, pattern: str | Pattern | None = None, prevent_outside: bool = True, exclude_prefixes: Sequence[str] = (), continue_on_failure: bool = False) → list[str][source]#

从原始HTML字符串中提取所有链接并将其转换为绝对路径。

Parameters:
  • raw_html (str) – 原始HTML。

  • url (str) – HTML的URL。

  • base_url (str | None) – 用于检查外部链接的基础URL。

  • pattern (str | Pattern | None) – 用于从原始HTML中提取链接的正则表达式。

  • prevent_outside (bool) – 如果为True,忽略不是基础URL子链接的外部链接。

  • exclude_prefixes (Sequence[str]) – 排除任何以这些前缀开头的URL。

  • continue_on_failure (bool) – 如果为True,则在解析特定链接时如果发生异常则继续。否则,抛出异常。

Returns:

子链接。

Return type:

列表[str]

On this page
  • extract_sub_links()

© 版权所有 2023, LangChain Inc.

优云智算