Glue Catalog
AWS Glue Data Catalog 是一个集中式的元数据存储库,允许您管理、访问和共享存储在 AWS 中的数据的元数据。它作为数据资产的元数据存储,使各种 AWS 服务和您的应用程序能够高效地查询和连接到所需的数据。
当您在AWS Glue中定义数据源、转换和目标时,这些元素的元数据存储在数据目录中。这包括有关数据位置、模式定义、运行时指标等信息。它支持各种数据存储类型,如Amazon S3、Amazon RDS、Amazon Redshift以及与JDBC兼容的外部数据库。它还直接与Amazon Athena、Amazon Redshift Spectrum和Amazon EMR集成,允许这些服务直接访问和查询数据。
Langchain GlueCatalogLoader 将以与 Pandas dtype 相同的格式获取给定 Glue 数据库中所有表的模式。
设置
- 按照设置AWS账户的说明进行操作。
- 安装boto3库:
pip install boto3
示例
from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API Reference:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
loader = GlueCatalogLoader(
database=database_name,
profile_name=profile_name,
)
schemas = loader.load()
print(schemas)
表格过滤示例
表过滤功能允许您有选择地检索Glue数据库中特定子集的表的模式信息。您可以使用table_filter
参数来指定您感兴趣的表,而不是加载所有表的模式。
from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API Reference:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]
loader = GlueCatalogLoader(
database=database_name, profile_name=profile_name, table_filter=table_filter
)
schemas = loader.load()
print(schemas)