版本 1.7.X#

版本 1.7.0#

部署日期:2024年3月24日

贡献者#

在这个新版本中有一些重要的更新。首先,我们引入了一个新的 Pipeline,它支持在数据转换过程中从数据集中移除行的转换器。从现在开始,你可以使用 DropMissingDataOutlierTrimmerLagFeaturesWindowFeatures 作为特征工程管道的一部分,这些管道将转换你的变量,必要时重新调整目标与剩余行的对齐,然后拟合模型。一切都在一次操作中完成!

此外,像 DropMissingDataOutlierTrimmerLagFeaturesWindowFeatures 这样从数据集中移除行的转换器,现在可以通过新方法 transform_x_y 将目标值调整为剩余的行。

第三个重大改进在于我们相关性转换器的大幅速度优化,现在它们以双倍的速度找到并移除相关特征,同时,还能让你轻松识别出用于确定相关特征的特征。

除此之外,我们做了大量工作以跟上 Scikit-learn 和 pandas 的最新发展,以确保我们的转换器保持兼容性。话虽如此,我们是一个小团队,维护对我们来说很困难,因此我们已停止支持这些库的早期版本。

继续阅读以了解更多我们一直在做的事情!

新功能#

  • 我们现在有一个 Pipeline()make_pipeline,它们支持从数据集中移除行的转换器(Soledad Galli

  • DropMissingData, OutlierTrimmer, LagFeatures, ExpandingWindowFeaturesWindowFeatures 有一个方法 transform_x_y 用于从数据中删除行,然后调整目标变量 (Soledad Galli)

增强功能#

  • DropCorrelatedFeatures()SmartCorrelationSelection 有一个新属性,用于指示从每个相关组中保留哪个特征(Soledad Gallidlaprins

  • DropCorrelatedFeatures()SmartCorrelationSelection 的速度是原来的两倍,并且可以在搜索之前根据方差、基数或字母顺序对变量进行排序(Soledad Gallidlaprins

  • LagFeatures 现在可以填补引入的 nan 值 (Soledad Galli)

Bug 修复#

除了这些错误修复外,我们还修复了其他与pandas、scikit-learn新版本和弃用相关的错误。

代码改进#

文档#

弃用#

  • 我们移除了对 Python 3.8 的支持 (Soledad Galli)

  • 我们将 pandas 和 Scikit-learn 的依赖更新到最新版本 (Soledad Galli)