Skip to main content
Open In ColabOpen on GitHub

Athena

Amazon Athena 是一种无服务器、交互式分析服务,构建在开源框架上,支持开放表和文件格式。Athena 提供了一种简化、灵活的方式来分析存储在其所在位置的数PB数据。使用SQL或Python从Amazon Simple Storage Service (S3) 数据湖和30个数据源(包括本地数据源或其他云系统)分析数据或构建应用程序。Athena 构建在开源的TrinoPresto引擎以及Apache Spark框架上,无需配置或配置工作。

本笔记本介绍了如何从AWS Athena加载文档。

设置

按照设置AWS账户的说明进行操作。

安装一个Python库:

! pip install boto3

示例

from langchain_community.document_loaders.athena import AthenaLoader
API Reference:AthenaLoader
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
)

documents = loader.load()
print(documents)

带有元数据列的示例

database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
metadata_columns = ["_row", "_created_at"]

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
metadata_columns=metadata_columns,
)

documents = loader.load()
print(documents)

这个页面有帮助吗?