dask.dataframe.Index.drop_duplicates

dask.dataframe.Index.drop_duplicates¶

Index.drop_duplicates(split_every=None, split_out=1, shuffle_method=None, **kwargs)[源代码]¶

返回删除了重复值的索引。

此文档字符串是从 pandas.core.indexes.base.Index.drop_duplicates 复制的。

Dask 版本可能存在一些不一致性。

参数

keep : {‘first’, ‘last’, False}, 默认 ‘first’ (Dask 不支持){‘first’, ‘last’,}

返回

参见

示例

生成一个包含重复值的 pandas.Index。

>>> idx = pd.Index(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'])  

keep 参数控制哪些重复值被移除。值 ‘first’ 保留每个重复条目的首次出现。keep 的默认值是 ‘first’。

>>> idx.drop_duplicates(keep='first')  
Index(['lama', 'cow', 'beetle', 'hippo'], dtype='object')

值 ‘last’ 保留每组重复条目中的最后一个。

>>> idx.drop_duplicates(keep='last')  
Index(['cow', 'beetle', 'lama', 'hippo'], dtype='object')

值 False 会丢弃所有重复的条目集合。

>>> idx.drop_duplicates(keep=False)  
Index(['cow', 'beetle', 'hippo'], dtype='object')

dask.dataframe.Index.div

dask.dataframe.Index.dropna