pyspark.sql.functions.bucket ¶
-
pyspark.sql.functions.bucket( numBuckets : Union [ pyspark.sql.column.Column , int ] , col : ColumnOrName ) → pyspark.sql.column.Column [source] ¶ -
分区转换函数:一种用于任何类型的转换,通过输入列的哈希值进行分区。
新增于版本 3.1.0。
在版本 3.4.0 中更改: 支持 Spark Connect。
注释
此函数只能与 DataFrameWriterV2 的
partitionedBy()方法结合使用。示例
>>> df.writeTo("catalog.db.table").partitionedBy( ... bucket(42, "ts") ... ).createOrReplace()