2.0.1 版本的新特性(2023年4月24日)#
这是 pandas 2.0.1 的更改。请参阅 发行说明 以获取包括其他版本 pandas 的完整更新日志。
修复的回归问题#
修复了从字典构造时子类化 Series 的回归问题 (GH 52445)
修复了在
SeriesGroupBy.agg()
中使用分类数据、多重分组、as_index=False
和聚合列表时失败的固定回归问题 (GH 52760)修复了
DataFrame.pivot()
更改输入对象的Index
名称的回归问题 (GH 52629)修复了在没有任何列的
DataFrame.resample()
中引发的回归问题 (GH 52484)修复了
DataFrame.sort_values()
在DataFrame
已经排序且ignore_index=True
时未重置索引的回归问题 (GH 52553)修复了
MultiIndex.isin()
在Generator
中引发TypeError
的回归问题 (GH 52568)修复了
Series.describe()
在只有一个元素的扩展数据类型Series
中显示RuntimeWarning
的回归问题 (GH 52515)当向
DataFrame
添加新列时,如果DataFrame.columns
是RangeIndex
并且新键是可哈希的但不是标量时,修复了回归问题 (GH 52652)
错误修复#
在
Series.dt.days
中的错误会导致int32
天数溢出 (GH 52391)在传递非纳秒的numpy datetime数组时,
arrays.DatetimeArray
构造函数返回不正确的单位 (GH 52555)ArrowExtensionArray
中存在一个错误,当从包含 numpyNaT
的数据构造时,持续时间 dtype 会溢出 (GH 52843)当传递一个与
Series
相同或更高分辨率的freq
时,Series.dt.round()
中的错误会引发ZeroDivisionError
(GH 52761)在
Series.median()
中使用ArrowDtype
返回近似中位数的错误 (GH 52679)api.interchange.from_dataframe()
中的错误在分类数据类型上不必要地引发 (GH 49889)api.interchange.from_dataframe()
中的错误在大型字符串 dtypes 上不必要地引发 (GH 52795)在
pandas.testing.assert_series_equal()
中的一个错误,当check_dtype=False
时,对于具有不同分辨率的日期时间或时间增量类型仍然会引发 (GH 52449)Bug in
read_csv()
在dtype_backend="pyarrow"
和parse_dates
设置时将 PyArrow 日期时间转换为 NumPy,导致处理过程中出现性能瓶颈 (GH 52546)在尝试使用
ArrowDtype
转换数值数据时,to_datetime()
和to_timedelta()
中存在错误 (GH 52425)在
errors='coerce'
和dtype_backend='pyarrow'
下使用to_numeric()
处理ArrowDtype
数据时出现的错误 (GH 52588)在
ArrowDtype.__from_arrow__()
中的错误,不尊重是否明确给出 dtype (GH 52533)在
DataFrame.describe()
中的错误,不尊重include
和exclude
中的ArrowDtype
(GH 52570)在
DataFrame.max()
和相关转换不同Timestamp
分辨率始终为纳秒的错误 (GH 52524)在
Series.describe()
中存在一个错误,当使用pyarrow.float64
类型处理数值数据时,未返回ArrowDtype
(GH 52427)Series.dt.tz_localize()
中的错误不正确地本地化带有ArrowDtype
的时间戳 (GH 52677)在
np.datetime64
和np.timedelta64
之间的算术错误NaT
标量与单位总是返回纳秒分辨率 (GH 52295)ArrowDtype
和 numpy 掩码类型(例如"boolean"
)之间的逻辑和比较操作中的错误 (GH 52625)修复了在一边使用
ArrowDtype
另一边使用 NumPy dtype 时merge()
中的错误 (GH 52406)修复了在
null[pyarrow]
dtype 下Series.to_numpy()
中的固定段错误 (GH 52443)
其他#
DataFrame
从空的字典创建时,其columns
的数据类型为object
。现在它是一个RangeIndex
(GH 52404)Series
从空的字典创建时,其index
的 dtype 是object
。现在它是一个RangeIndex
(GH 52404)为
ArrowDtype
实现了Series.str.split()
和Series.str.rsplit()
方法,使用pyarrow.string
(GH 52401)为
ArrowDtype
实现了大多数str
访问器方法,使用pyarrow.string
(GH 52401)提供一个在
api.types.is_scalar()
中测试False
的非整数可哈希键现在会引发KeyError
对于RangeIndex.get_loc()
,就像它对于Index.get_loc()
一样。以前它会引发InvalidIndexError
(GH 52652)。
贡献者#
总共有20人为此版本贡献了补丁。名字后面带有“+”的人首次贡献了补丁。
Alex Malins +
Chris Carini +
Dea María Léon
Joris Van den Bossche
Luke Manley
Marc Garcia
Marco Edward Gorelli
MarcoGorelli
Matthew Roeschke
MeeseeksMachine
Natalia Mokeeva
Nirav +
Pandas Development Team
Patrick Hoefler
Richard Shadrach
Stefanie Molin
Terji Petersen
Thomas +
Thomas Li
yonashub