pyspark.sql.functions.array_distinct ¶
-
array_distinct( col : ColumnOrName ) → pyspark.sql.column.Column [source] ¶ -
集合函数:从数组中移除重复值。
在版本 2.4.0 中新增。
在版本 3.4.0 中更改: 支持 Spark Connect。
示例
>>> df = spark.createDataFrame([([1, 2, 3, 2],), ([4, 5, 5, 4],)], ['data']) >>> df.select(array_distinct(df.data)).collect() [Row(array_distinct(data)=[1, 2, 3]), Row(array_distinct(data)=[4, 5])]