pandas.DataFrame.drop_duplicates#
- DataFrame.drop_duplicates(subset=None, *, keep='first', inplace=False, ignore_index=False)[源代码][源代码]#
返回删除重复行的 DataFrame。
考虑某些列是可选的。索引,包括时间索引,将被忽略。
- 参数:
- 子集列标签或标签的可迭代对象,可选
默认情况下使用所有列来识别重复项,但也可以仅考虑某些列。
- keep : {‘first’, ‘last’,
False
}, 默认 ‘first’{‘first’, ‘last’,} 确定保留哪些重复项(如果有)。
‘first’ : 删除重复项,除了第一次出现。
‘last’ : 删除重复项,除了最后一次出现。
False
: 删除所有重复项。
- inplace : bool, 默认
False
布尔值, 默认 是否修改 DataFrame 而不是创建一个新的。
- ignore_index : bool, 默认为
False
布尔值, 默认 如果
True
,生成的轴将被标记为 0, 1, …, n - 1。
- 返回:
- DataFrame 或 None
移除重复项后的 DataFrame 或如果
inplace=True
则为 None。
参见
DataFrame.value_counts
计算列的唯一组合。
备注
此方法要求由
subset
指定的列是可哈希类型。传递不可哈希的列将引发TypeError
。例子
考虑包含拉面评分的数据集。
>>> df = pd.DataFrame( ... { ... "brand": ["Yum Yum", "Yum Yum", "Indomie", "Indomie", "Indomie"], ... "style": ["cup", "cup", "cup", "pack", "pack"], ... "rating": [4, 4, 3.5, 15, 5], ... } ... ) >>> df brand style rating 0 Yum Yum cup 4.0 1 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0
默认情况下,它会基于所有列删除重复行。
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0
要删除特定列上的重复项,请使用
subset
。>>> df.drop_duplicates(subset=["brand"]) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5
要删除重复项并保留最后出现的项,请使用
keep
。>>> df.drop_duplicates(subset=["brand", "style"], keep="last") brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.0