pyspark.sql.functions.array_intersect

pyspark.sql.functions. array_intersect ( col1 : ColumnOrName , col2 : ColumnOrName ) → pyspark.sql.column.Column [source]

集合函数:返回col1和col2交集中的元素数组,不包含重复项。

新增于版本 2.4.0。

在版本 3.4.0 中更改: 支持 Spark Connect。

Parameters
col1 Column or str

包含数组的列名

col2 Column or str

包含数组的列名

Returns
Column

两个数组交集中的值数组。

示例

>>> from pyspark.sql import Row
>>> df = spark.createDataFrame([Row(c1=["b", "a", "c"], c2=["c", "d", "a", "f"])])
>>> df.select(array_intersect(df.c1, df.c2)).collect()
[Row(array_intersect(c1, c2)=['a', 'c'])]