版本 1.6.X#
版本 1.6.2#
部署日期: 2023年9月18日
贡献者#
新功能#
MatchVariables()
现在还可以匹配变量的 dtypes (Kyle Gilde)DatetimeFeatures()
和DatetimeSubtraction()
现在可以指定日期时间变量的格式 (Soledad Galli)为
YeoJohnsonTransformer()
添加inverse_transform
方法 (Giorgio Segalla)
错误修复#
这些错误是由最新版本的 pandas、Scikit-learn 和 Scipy 引入的。
修复
YeoJohnsonTransformer()
的失败测试 (Soledad Galli)修复
RareLabelEncoder()
的失败测试 (Soledad Galli)修复
DatetimeFeatures()
的失败测试 (Soledad Galli)修复多个编码器的失败测试:移除了
downcast=infer
,因为它将被弃用(Soledad Galli)修复版本相关失败的样式检查 (Soledad Galli)
修复版本相关失败的类型检查 (Soledad Galli)
修复与版本相关的文档检查失败 (Soledad Galli)
修复未来警告分类插补 (Soledad Galli)
代码改进#
在
DatetimeFeatures()
中,当处理不同时区时,utc=True
的检查不再生效 (Soledad Galli)。在
OneHotEncoder()
中提升性能 (Soledad Galli)在数据框中添加重复变量名称的检查 (David Cortes)
文档#
修复用户指南中的各种拼写错误 (Soledad Galli)
更新 readthedocs.yml 文件 (Soledad Galli)
在Readme中添加许可证链接 (Darigov Research)
版本 1.6.1#
部署日期: 2023年6月8日
贡献者#
在此版本中,我们使 Feature-engine 与 pandas 2.0 兼容,扩展了一些转换器的功能,并修复了上一版本中引入的错误。
非常感谢所有贡献者,感谢 Gleb Levitski 和 Claudio Salvatore Arcidiacono 在评审方面的帮助,以及那些创建问题标记错误或请求新功能的你们。
新功能#
人口稳定指数现在可以用来评估分类变量 (dlaprins 和 Claudio Salvatore Arcidiacono)
RelativeFeatures
有一个选项可以添加一个常数以避免除以零 (Morgan Sell 和 Soledad Galli)SelectByShuffling
现在接受样本权重 (Soledad Galli)WoEEncoder
现在会告诉你哪些变量在编码过程中失败 (Soledad Galli)WoEEncoder
有一个选项可以添加一个常数以避免除以零 (Soledad Galli)
错误修复#
修复了
RareLabelEncoder()
中的各种错误 (Soledad Galli)在基类中将
transform
方法重命名为check_transform_input_and_state
,这修复了在各种类中使用set_output(transform="pandas")
时引发的错误(Soledad Galli 和 Claudio Salvatore Arcidiacono)
代码改进#
使代码库兼容 pandas 2.0 (Claudio Salvatore Arcidiacono)
将选择转换器的文档字符串移动到文档字符串模块 (Soledad Galli)
版本 1.6.0#
部署日期: 2023年3月16日
贡献者#
Kyle Gilde 的 GitHub 链接
在此版本中,我们使 Feature-engine 转换器与 Scikit-learn 的 set_output
API 兼容,该 API 在 1.2.0 版本中发布。我们还使 Feature-engine 与 pandas 的最新方向兼容,即移除我们的转换器在底层使用的 inplace
功能。
我们引入了一个重大变化:大多数 分类编码器现在即使变量有缺失数据也可以进行编码。
我们也在发布 3个全新的转换器:一个用于离散化,一个用于特征选择,以及一个用于日期时间变量之间的操作。
我们还对 DropDuplicateFeatures
的性能进行了重大改进,并在各处进行了一些较小的错误修复。
我们要感谢所有贡献者修复错误并扩展了Feature-engine的功能和文档。
非常感谢所有贡献者以及那些创建问题标记错误或请求新功能的你们。
新的变压器#
ProbeFeatureSelection: 引入随机特征并选择重要性高于随机特征的变量 (Morgan Sell 和 Soledad Galli)
DatetimeSubtraction: 通过减去日期时间变量来创建新特征 (Kyle Gilde 和 Soledad Galli)
GeometricWidthDiscretiser:将连续变量按几何级数确定的区间进行排序(Gleb Levitski)
新功能#
允许分类编码器对包含NaN的变量进行编码 (Soledad Galli)
使转换器兼容sklearn的新`set_output`功能 (Soledad Galli)
ArbitraryDiscretiser()
现在在区间中包含最低限制 (Soledad Galli)
新模块#
新的 数据集 模块,包含加载特定数据集的函数 (Alfonso Tobar)
新的 variable_handling 模块,包含自动选择数值、分类或日期时间变量的函数(Soledad Galli)
错误修复#
修复了
DropFeatures()
中的错误 (Luís Seabra)修复了
RecursiveFeatureElimination()
中仅剩一个特征时导致的错误 (Soledad Galli)
文档#
在选择模块API文档中添加示例代码片段(Alfonso Tobar)
将示例代码片段添加到异常值模块API文档中 (Alfonso Tobar)
将示例代码片段添加到转换模块API文档中 (Alfonso Tobar)
将示例代码片段添加到时间序列模块API文档中 (Alfonso Tobar)
将示例代码片段添加到预处理模块API文档中 (Alfonso Tobar)
将示例代码片段添加到包装器模块API文档中 (Alfonso Tobar)
使用新 Dataset 模块更新的文档 (Alfonso Tobar 和 Soledad Galli)
重新组织了Readme徽章 (Gleb Levitski)
新的 Jupyter 笔记本用于
GeometricWidthDiscretiser
(Gleb Levitski)修正了拼写错误 (Gleb Levitski)
移除使用波士顿房屋数据集的示例 (Soledad Galli)
更新赞助商页面和贡献页面 (Soledad Galli)
弃用#
类
PRatioEncoder
不再被支持,并且已从API中移除 (Soledad Galli)
代码改进#
DropDuplicateFeatures()
的性能(速度)大幅提升 (Nodar Okroshiashvili)移除
inplace
以及与 pandas 新方向相关的其他问题 (Luís Seabra)将大多数文档字符串移至专门的文档字符串模块 (Soledad Galli)
解开编码器的测试 (Soledad Galli)