pandas.DataFrame.drop_duplicates#

DataFrame.drop_duplicates(subset=None, *, keep='first', inplace=False, ignore_index=False)[源代码][源代码]#

返回删除重复行的 DataFrame。

考虑某些列是可选的。索引,包括时间索引,将被忽略。

参数:
子集列标签或标签的可迭代对象,可选

默认情况下使用所有列来识别重复项,但也可以仅考虑某些列。

keep : {‘first’, ‘last’, False}, 默认 ‘first’{‘first’, ‘last’,}

确定保留哪些重复项(如果有)。

  • ‘first’ : 删除重复项,除了第一次出现。

  • ‘last’ : 删除重复项,除了最后一次出现。

  • False : 删除所有重复项。

inplace : bool, 默认 False布尔值, 默认

是否修改 DataFrame 而不是创建一个新的。

ignore_index : bool, 默认为 False布尔值, 默认

如果 True,生成的轴将被标记为 0, 1, …, n - 1。

返回:
DataFrame 或 None

移除重复项后的 DataFrame 或如果 inplace=True 则为 None。

参见

DataFrame.value_counts

计算列的唯一组合。

备注

此方法要求由 subset 指定的列是可哈希类型。传递不可哈希的列将引发 TypeError

例子

考虑包含拉面评分的数据集。

>>> df = pd.DataFrame(
...     {
...         "brand": ["Yum Yum", "Yum Yum", "Indomie", "Indomie", "Indomie"],
...         "style": ["cup", "cup", "cup", "pack", "pack"],
...         "rating": [4, 4, 3.5, 15, 5],
...     }
... )
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

默认情况下,它会基于所有列删除重复行。

>>> df.drop_duplicates()
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

要删除特定列上的重复项,请使用 subset

>>> df.drop_duplicates(subset=["brand"])
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5

要删除重复项并保留最后出现的项,请使用 keep

>>> df.drop_duplicates(subset=["brand", "style"], keep="last")
    brand style  rating
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
4  Indomie  pack     5.0