⌘+k ctrl+k
1.1.3 (stable)
Search Shortcut cmd + k | ctrl + k
Querying Parquet Metadata

Parquet 元数据

parquet_metadata 函数可用于查询 Parquet 文件中包含的元数据,这些元数据揭示了 Parquet 文件的各种内部细节,例如不同列的统计信息。这对于了解 Parquet 文件中可以跳过哪些内容非常有用,甚至可以快速了解不同列包含的内容:

SELECT *
FROM parquet_metadata('test.parquet');

以下是parquet_metadata返回的列的表。

字段 类型
文件名 VARCHAR
行组ID BIGINT
行组行数 BIGINT
行组列数 BIGINT
行组字节数 BIGINT
列标识 BIGINT
文件偏移量 BIGINT
num_values BIGINT
path_in_schema VARCHAR
类型 VARCHAR
stats_min VARCHAR
stats_max VARCHAR
stats_null_count BIGINT
stats_distinct_count BIGINT
stats_min_value VARCHAR
stats_max_value VARCHAR
压缩 VARCHAR
编码 VARCHAR
index_page_offset BIGINT
dictionary_page_offset BIGINT
data_page_offset BIGINT
total_compressed_size BIGINT
total_uncompressed_size BIGINT
key_value_metadata MAP(BLOB, BLOB)

Parquet 模式

parquet_schema 函数可用于查询 Parquet 文件中包含的内部模式。请注意,这是 Parquet 文件元数据中包含的模式。如果您想找出 Parquet 文件中包含的列名和类型,使用 DESCRIBE 会更方便。

获取列名和列类型:

DESCRIBE SELECT * FROM 'test.parquet';

获取Parquet文件的内部模式:

SELECT *
FROM parquet_schema('test.parquet');

以下是parquet_schema返回的列的表。

Field Type
file_name VARCHAR
名称 VARCHAR
type VARCHAR
type_length VARCHAR
repetition_type VARCHAR
num_children BIGINT
转换类型 VARCHAR
scale BIGINT
精度 BIGINT
field_id BIGINT
逻辑类型 VARCHAR

Parquet 文件元数据

parquet_file_metadata 函数可用于查询文件级别的元数据,例如格式版本和使用的加密算法:

SELECT *
FROM parquet_file_metadata('test.parquet');

以下是parquet_file_metadata返回的列的表。

Field Type
file_name VARCHAR
created_by VARCHAR
num_rows BIGINT
num_row_groups BIGINT
format_version BIGINT
加密算法 VARCHAR
footer_signing_key_metadata VARCHAR

Parquet 键值元数据

parquet_kv_metadata 函数可用于查询定义为键值对的自定义元数据:

SELECT *
FROM parquet_kv_metadata('test.parquet');

以下是parquet_kv_metadata返回的列的表。

Field Type
file_name VARCHAR
BLOB
BLOB