版本 1.8.X#

版本 1.8.1#

部署日期: 2024年9月1日

贡献者#

在此版本中,我们修复了来自 pandas 和 numpy 的几个错误和未来的弃用警告。此外,我们扩展了一些特征选择类的功能,以返回派生特征重要性的标准差。

我们还更新和扩展了文档的各个页面。

非常感谢所有为此次发布做出贡献的贡献者,以及 Vasco SchiavoGleb Levitski 积极参与讨论我们的许多PR和问题。

如果您重视我们所做的工作,请考虑 赞助我们,以便我们能够保持快速更新 Feature-engine。

增强功能#

  • ProbeFeatureSelection 现在还可以通过单特征模型性能来确定特征重要性 (Soledad Galli)

  • ProbeFeatureSelection 现在可以返回特征重要性的标准差 (Soledad Galli)

  • RecursiveFeatureEliminationRecursiveFeatureAddition 现在可以返回特征重要性的标准差 (Soledad Galli)

  • SelectByShuffling, SelectBySingleFeaturePerformanceSelectByTargetMeanPerformance 现在可以返回特征重要性的标准差 (Soledad Galli)

  • 所有特征选择类现在可以通过 groups 参数实现组交叉验证 (Kanan Mahammadli)

Bug 修复#

  • 递归特征选择器的 cv 参数现在可以接受类型为 KFold.split(X, y) 的 cv 生成器 (Alessandro Benetti)

  • 剩余特征选择类的 cv 参数现在可以接受 KFold.split(X, y) 类型的 cv 生成器 (Soledad Galli)

  • LogCpTransformer() 仅在拟合过程中对严格非正的变量添加常数(Soledad Galli

  • 修复了 MatchVariables 中的错误,该错误在引发缺失值时阻止了转换器的工作 (Soledad Galli)

  • 修复了 YeoJohnsonTransformer() 中的 inverse_transform() 的错误 (Soledad Galli)

  • 修复 pandas 未来警告 (Soledad Galli)

  • 修复 numpy 未来警告 (olikra)

代码改进#

  • 扩展各种测试的覆盖范围 (olikra)

文档#

版本 1.8.0#

部署日期: 2024年5月26日

贡献者#

在此版本中,我们进行了一些重大更改。DecisionTreeEncoder() 不再具有编码管道。取而代之的是,我们现在添加了一个 encoding_dict_ 参数,用于存储从类别到决策树预测的映射。这使我们能够额外实现一种处理未见类别的方法和 inverse_transform 方法。

我们还扩展了 DecisionTreeDiscretiser() 的功能,现在可以用决策树预测、区间限制或分箱编号来替换连续属性。

此外,我们引入了一个新的转换器,即 DecisionTreeFreatures(),它为数据添加了新特征,这些特征来自于基于一个或多个特征训练的决策树的预测结果。

模块 outliers 中的类现在可以自动选择异常值边界的限制。

最后,我们更新并扩展了文档中的多个页面。

非常感谢所有为此次发布做出贡献的贡献者,以及 Vasco SchiavoGleb Levitski 积极审查我们的许多PR。

如果您重视我们所做的工作,请考虑 赞助我们,以便我们能够继续快速更新 Feature-engine。

#

  • DecisionTreeFeatures 是来自创建模块的一个新转换器,它基于决策树的预测添加特征(Soledad Galli

增强功能#

  • DecisionTreeEncoder 现在支持对未见类别的编码、inverse_transform,并提供一个编码字典而不是流水线(Soledad GalliGleb LevitskiLorenzo Vitali

  • DecisionTreeDiscretiser() 现在可以用决策树预测、区间限制或分箱编号来替换连续属性 (Soledad Galli)

  • OutlierTrimmer()Winsorizer() 现在可以根据统计方法自动调整异常值搜索的强度(参数 fold="auto")(Gleb Levitski

文档#