⌘+k ctrl+k
1.1.3 (stable)
Search Shortcut cmd + k | ctrl + k
S3 Parquet Import

先决条件

要从S3加载Parquet文件,需要httpfs扩展。可以使用INSTALL SQL命令进行安装。这只需要运行一次。

INSTALL httpfs;

要加载httpfs扩展以供使用,请使用LOAD SQL命令:

LOAD httpfs;

凭证和配置

加载httpfs扩展后,设置凭据和S3区域以读取数据:

CREATE SECRET (
    TYPE S3,
    KEY_ID 'AKIAIOSFODNN7EXAMPLE',
    SECRET 'wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY',
    REGION 'us-east-1'
);

Tip If you get an IO Error (Connection error for HTTP HEAD), configure the endpoint explicitly via ENDPOINT 's3.⟨your-region⟩.amazonaws.com'.

或者,使用 aws 扩展 来自动获取凭证:

CREATE SECRET (
    TYPE S3,
    PROVIDER CREDENTIAL_CHAIN
);

查询

在设置好httpfs扩展并正确配置S3后,可以使用以下命令从S3读取Parquet文件:

SELECT * FROM read_parquet('s3://⟨bucket⟩/⟨file⟩');

Google Cloud Storage (GCS) 和 Cloudflare R2

DuckDB 还可以通过 S3 API 处理 Google Cloud Storage (GCS)Cloudflare R2。 详情请参阅相关指南。