版本 1.6.X#

版本 1.6.2#

部署日期: 2023年9月18日

新功能#

  • MatchVariables() 现在还可以匹配变量的 dtypesKyle Gilde

  • DatetimeFeatures()DatetimeSubtraction() 现在可以指定日期时间变量的格式 (Soledad Galli)

  • YeoJohnsonTransformer() 添加 inverse_transform 方法 (Giorgio Segalla)

错误修复#

这些错误是由最新版本的 pandas、Scikit-learn 和 Scipy 引入的。

代码改进#

  • DatetimeFeatures() 中,当处理不同时区时,utc=True 的检查不再生效 (Soledad Galli)。

  • OneHotEncoder() 中提升性能 (Soledad Galli)

  • 在数据框中添加重复变量名称的检查 (David Cortes)

文档#

版本 1.6.1#

部署日期: 2023年6月8日

贡献者#

在此版本中,我们使 Feature-engine 与 pandas 2.0 兼容,扩展了一些转换器的功能,并修复了上一版本中引入的错误。

非常感谢所有贡献者,感谢 Gleb LevitskiClaudio Salvatore Arcidiacono 在评审方面的帮助,以及那些创建问题标记错误或请求新功能的你们。

新功能#

错误修复#

  • 修复了 RareLabelEncoder() 中的各种错误 (Soledad Galli)

  • 在基类中将 transform 方法重命名为 check_transform_input_and_state,这修复了在各种类中使用 set_output(transform="pandas") 时引发的错误(Soledad GalliClaudio Salvatore Arcidiacono

代码改进#

版本 1.6.0#

部署日期: 2023年3月16日

贡献者#

在此版本中,我们使 Feature-engine 转换器与 Scikit-learn 的 set_output API 兼容,该 API 在 1.2.0 版本中发布。我们还使 Feature-engine 与 pandas 的最新方向兼容,即移除我们的转换器在底层使用的 inplace 功能。

我们引入了一个重大变化:大多数 分类编码器现在即使变量有缺失数据也可以进行编码

我们也在发布 3个全新的转换器:一个用于离散化,一个用于特征选择,以及一个用于日期时间变量之间的操作。

我们还对 DropDuplicateFeatures 的性能进行了重大改进,并在各处进行了一些较小的错误修复。

我们要感谢所有贡献者修复错误并扩展了Feature-engine的功能和文档。

非常感谢所有贡献者以及那些创建问题标记错误或请求新功能的你们。

新的变压器#

  • ProbeFeatureSelection: 引入随机特征并选择重要性高于随机特征的变量 (Morgan SellSoledad Galli)

  • DatetimeSubtraction: 通过减去日期时间变量来创建新特征 (Kyle GildeSoledad Galli)

  • GeometricWidthDiscretiser:将连续变量按几何级数确定的区间进行排序(Gleb Levitski

新功能#

  • 允许分类编码器对包含NaN的变量进行编码 (Soledad Galli)

  • 使转换器兼容sklearn的新`set_output`功能 (Soledad Galli)

  • ArbitraryDiscretiser() 现在在区间中包含最低限制 (Soledad Galli)

新模块#

  • 新的 数据集 模块,包含加载特定数据集的函数 (Alfonso Tobar)

  • 新的 variable_handling 模块,包含自动选择数值、分类或日期时间变量的函数(Soledad Galli

错误修复#

  • 修复了 DropFeatures() 中的错误 (Luís Seabra)

  • 修复了 RecursiveFeatureElimination() 中仅剩一个特征时导致的错误 (Soledad Galli)

文档#

弃用#

  • PRatioEncoder 不再被支持,并且已从API中移除 (Soledad Galli)

代码改进#