pyspark.sql.functions.array_distinct

array_distinct ( col : ColumnOrName ) → pyspark.sql.column.Column [source]

集合函数:从数组中移除重复值。

在版本 2.4.0 中新增。

在版本 3.4.0 中更改: 支持 Spark Connect。

Parameters
col or str

列名或表达式

Returns

一个唯一值的数组。

示例

>>> df = spark.createDataFrame([([1, 2, 3, 2],), ([4, 5, 5, 4],)], ['data'])
>>> df.select(array_distinct(df.data)).collect()
[Row(array_distinct(data)=[1, 2, 3]), Row(array_distinct(data)=[4, 5])]