1.5.1 版本的新内容(2022年10月19日)#

这是 pandas 1.5.1 中的更改。请参阅 发行说明 以获取包括其他版本 pandas 的完整更新日志。

groupby 使用分类分组器的行为 (GH 48645)#

在 pandas 1.5 之前的版本中,当分组器是分类数据类型时,groupby 使用 dropna=False 仍然会删除 NA 值。1.5 版本尝试修复了这个问题,但是引入了一个回归问题,即传递 observed=Falsedropna=Falsegroupby 会导致只显示观察到的类别。发现修复 dropna=False 错误的补丁与 observed=False 不兼容,决定最好的解决方案是以重新引入 dropna=False 错误为代价恢复正确的 observed=False 行为。

In [1]: df = pd.DataFrame(
   ...:     {
   ...:         "x": pd.Categorical([1, None], categories=[1, 2, 3]),
   ...:         "y": [3, 4],
   ...:     }
   ...: )
   ...: 

In [2]: df
Out[2]: 
     x  y
0    1  3
1  NaN  4

1.5.0 行为:

In [3]: # Correct behavior, NA values are not dropped
        df.groupby("x", observed=True, dropna=False).sum()
Out[3]:
     y
x
1    3
NaN  4


In [4]: # Incorrect behavior, only observed categories present
        df.groupby("x", observed=False, dropna=False).sum()
Out[4]:
     y
x
1    3
NaN  4

1.5.1 行为:

# Incorrect behavior, NA values are dropped
In [3]: df.groupby("x", observed=True, dropna=False).sum()
Out[3]: 
     y
x     
1    3
NaN  4

# Correct behavior, unobserved categories present (NA values still dropped)
In [4]: df.groupby("x", observed=False, dropna=False).sum()
Out[4]: 
     y
x     
1    3
2    0
3    0
NaN  4

修复回归问题#

错误修复#

其他#

  • 在使用警告提示参数即将变为仅关键字时,避免显示已弃用的签名(GH 48692

贡献者#

总共有16人为此版本贡献了补丁。名字后面带有“+”的人首次贡献了补丁。

  • Amay Patel +

  • Deepak Sirohiwal +

  • Dennis Chukwunta

  • Gaurav Sheni

  • Himanshu Wagh +

  • Lorenzo Vainigli +

  • Marc Garcia

  • Marco Edward Gorelli

  • Matthew Roeschke

  • MeeseeksMachine

  • Noa Tamir

  • Pandas Development Team

  • Patrick Hoefler

  • Richard Shadrach

  • Shantanu

  • Torsten Wörtwein