dask.dataframe.Index.drop_duplicates

dask.dataframe.Index.drop_duplicates

Index.drop_duplicates(split_every=None, split_out=1, shuffle_method=None, **kwargs)[源代码]

返回删除了重复值的索引。

此文档字符串是从 pandas.core.indexes.base.Index.drop_duplicates 复制的。

Dask 版本可能存在一些不一致性。

已知的不一致性:

keep=False 将引发一个 NotImplementedError

参数
keep : {‘first’, ‘last’, False}, 默认 ‘first’ (Dask 不支持){‘first’, ‘last’,}
  • ‘first’ : 删除重复项,除了第一次出现。

  • ‘last’ : 删除重复项,除了最后一次出现。

  • False : 删除所有重复项。

返回
索引

参见

Series.drop_duplicates

Series 上的等效方法。

DataFrame.drop_duplicates

DataFrame 上的等效方法。

Index.duplicated

Index 上的相关方法,指示重复的 Index 值。

示例

生成一个包含重复值的 pandas.Index。

>>> idx = pd.Index(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'])  

keep 参数控制哪些重复值被移除。值 ‘first’ 保留每个重复条目的首次出现。keep 的默认值是 ‘first’。

>>> idx.drop_duplicates(keep='first')  
Index(['lama', 'cow', 'beetle', 'hippo'], dtype='object')

值 ‘last’ 保留每组重复条目中的最后一个。

>>> idx.drop_duplicates(keep='last')  
Index(['cow', 'beetle', 'lama', 'hippo'], dtype='object')

False 会丢弃所有重复的条目集合。

>>> idx.drop_duplicates(keep=False)  
Index(['cow', 'beetle', 'hippo'], dtype='object')