dask.dataframe.Index.nunique_approx

dask.dataframe.Index.nunique_approx

Index.nunique_approx(split_every=None)

唯一行的近似数量。

此方法使用 HyperLogLog 算法进行基数估计,以计算唯一行的近似数量。近似误差为 0.406%。

参数
split_everyint, 可选

在进行树形缩减时,将组分割成此大小的组。如果设置为 False,则不会使用树形缩减。默认值是 8。

返回
一个表示近似元素数量的浮点数