dask.dataframe.Index.drop_duplicates
dask.dataframe.Index.drop_duplicates¶
- Index.drop_duplicates(split_every=None, split_out=1, shuffle_method=None, **kwargs)[源代码]¶
返回删除了重复值的索引。
此文档字符串是从 pandas.core.indexes.base.Index.drop_duplicates 复制的。
Dask 版本可能存在一些不一致性。
- 已知的不一致性:
keep=False 将引发一个
NotImplementedError
- 参数
- keep : {‘first’, ‘last’,
False
}, 默认 ‘first’ (Dask 不支持){‘first’, ‘last’,} ‘first’ : 删除重复项,除了第一次出现。
‘last’ : 删除重复项,除了最后一次出现。
False
: 删除所有重复项。
- keep : {‘first’, ‘last’,
- 返回
- 索引
参见
Series.drop_duplicates
Series 上的等效方法。
DataFrame.drop_duplicates
DataFrame 上的等效方法。
Index.duplicated
Index 上的相关方法,指示重复的 Index 值。
示例
生成一个包含重复值的 pandas.Index。
>>> idx = pd.Index(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'])
keep 参数控制哪些重复值被移除。值 ‘first’ 保留每个重复条目的首次出现。keep 的默认值是 ‘first’。
>>> idx.drop_duplicates(keep='first') Index(['lama', 'cow', 'beetle', 'hippo'], dtype='object')
值 ‘last’ 保留每组重复条目中的最后一个。
>>> idx.drop_duplicates(keep='last') Index(['cow', 'beetle', 'lama', 'hippo'], dtype='object')
值
False
会丢弃所有重复的条目集合。>>> idx.drop_duplicates(keep=False) Index(['cow', 'beetle', 'hippo'], dtype='object')