langchain_community.document_loaders.glue_catalog
.GlueCatalogLoader¶
- class langchain_community.document_loaders.glue_catalog.GlueCatalogLoader(database: str, *, session: Optional[Session] = None, profile_name: Optional[str] = None, table_filter: Optional[List[str]] = None)[source]¶
从AWS Glue加载表模式。
此加载程序获取指定AWS Glue数据库中每个表的模式。模式详细信息包括列名及其数据类型,类似于pandas的dtype表示。
AWS凭证会使用boto3自动加载,遵循标准的AWS方法: https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html
如果需要特定的AWS配置文件,则可以指定并将用于建立会话。
初始化Glue数据库加载器。
- 参数:
database:要加载表模式的Glue数据库的名称。 session:可选。一个boto3 Session对象。如果未提供,将创建一个新的会话。 profile_name:可选。用于凭据的AWS配置文件的名称。 table_filter:可选。要获取模式的表名称列表,如果为None,则获取所有表。
Methods
__init__
(database, *[, session, ...])初始化Glue数据库加载器。
一个用于文档的惰性加载器。
aload
()将数据加载到文档对象中。
惰性加载表模式作为文档对象。
load
()将数据加载到文档对象中。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
- Parameters
database (str) –
session (Optional[Session]) –
profile_name (Optional[str]) –
table_filter (Optional[List[str]]) –
- __init__(database: str, *, session: Optional[Session] = None, profile_name: Optional[str] = None, table_filter: Optional[List[str]] = None)[source]¶
初始化Glue数据库加载器。
- 参数:
database:要加载表模式的Glue数据库的名称。 session:可选。一个boto3 Session对象。如果未提供,将创建一个新的会话。 profile_name:可选。用于凭据的AWS配置文件的名称。 table_filter:可选。要获取模式的表名称列表,如果为None,则获取所有表。
- Parameters
database (str) –
session (Optional[Session]) –
profile_name (Optional[str]) –
table_filter (Optional[List[str]]) –
- lazy_load() Iterator[Document] [source]¶
惰性加载表模式作为文档对象。
- 产生:
每个代表表模式的文档对象。
- Return type
Iterator[Document]
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]