pyspark.sql.functions.bucket

pyspark.sql.functions. bucket ( numBuckets : Union [ pyspark.sql.column.Column , int ] , col : ColumnOrName ) → pyspark.sql.column.Column [source]

分区转换函数:一种用于任何类型的转换,通过输入列的哈希值进行分区。

新增于版本 3.1.0。

在版本 3.4.0 中更改: 支持 Spark Connect。

Parameters
col Column or str

目标日期或时间戳列以进行操作。

Returns
Column

数据按给定列分区。

注释

此函数只能与 DataFrameWriterV2 partitionedBy() 方法结合使用。

示例

>>> df.writeTo("catalog.db.table").partitionedBy(  
...     bucket(42, "ts")
... ).createOrReplace()