pyspark.sql.functions.bucket ¶

pyspark.sql.functions. bucket ( numBuckets : Union [ pyspark.sql.column.Column , int ] , col : ColumnOrName ) → pyspark.sql.column.Column [source] ¶

分区转换函数：一种用于任何类型的转换，通过输入列的哈希值进行分区。

新增于版本 3.1.0。

在版本 3.4.0 中更改: 支持 Spark Connect。

Parameters

col Column or str: 目标日期或时间戳列以进行操作。

Returns

Column: 数据按给定列分区。

注释

此函数只能与 DataFrameWriterV2 的 partitionedBy() 方法结合使用。

示例

           >>> df.writeTo("catalog.db.table").partitionedBy(  
...     bucket(42, "ts")
... ).createOrReplace()

          

pyspark.sql.functions.小时

pyspark.sql.functions.any_value