版本 1.7.X#
版本 1.7.0#
部署日期:2024年3月24日
贡献者#
在这个新版本中有一些重要的更新。首先,我们引入了一个新的 Pipeline
,它支持在数据转换过程中从数据集中移除行的转换器。从现在开始,你可以使用 DropMissingData
、OutlierTrimmer
、LagFeatures
和 WindowFeatures
作为特征工程管道的一部分,这些管道将转换你的变量,必要时重新调整目标与剩余行的对齐,然后拟合模型。一切都在一次操作中完成!
此外,像 DropMissingData
、OutlierTrimmer
、LagFeatures
和 WindowFeatures
这样从数据集中移除行的转换器,现在可以通过新方法 transform_x_y
将目标值调整为剩余的行。
第三个重大改进在于我们相关性转换器的大幅速度优化,现在它们以双倍的速度找到并移除相关特征,同时,还能让你轻松识别出用于确定相关特征的特征。
除此之外,我们做了大量工作以跟上 Scikit-learn 和 pandas 的最新发展,以确保我们的转换器保持兼容性。话虽如此,我们是一个小团队,维护对我们来说很困难,因此我们已停止支持这些库的早期版本。
继续阅读以了解更多我们一直在做的事情!
新功能#
我们现在有一个
Pipeline()
和make_pipeline
,它们支持从数据集中移除行的转换器(Soledad Galli)DropMissingData
,OutlierTrimmer
,LagFeatures
,ExpandingWindowFeatures
和WindowFeatures
有一个方法transform_x_y
用于从数据中删除行,然后调整目标变量 (Soledad Galli)
增强功能#
DropCorrelatedFeatures()
和SmartCorrelationSelection
有一个新属性,用于指示从每个相关组中保留哪个特征(Soledad Galli,dlaprins)DropCorrelatedFeatures()
和SmartCorrelationSelection
的速度是原来的两倍,并且可以在搜索之前根据方差、基数或字母顺序对变量进行排序(Soledad Galli,dlaprins)LagFeatures
现在可以填补引入的 nan 值 (Soledad Galli)
Bug 修复#
DropCorrelatedFeatures()
和SmartCorrelationSelection
现在是确定性的 (Soledad Galli, Gleb Levitski, dlaprins)
除了这些错误修复外,我们还修复了其他与pandas、scikit-learn新版本和弃用相关的错误。
代码改进#
改进了在所有特征选择转换器中选择要检查的变量的逻辑 (Soledad Galli)
为 Python 3.11 和 3.12 添加 circleCI 测试 (Soledad Galli, Chris Samiullah)
文档#
改进
DropCorrelatedFeatures()
和SmartCorrelationSelection
的用户指南 (Soledad Galli)改进
DropMissingData()
的用户指南 (Soledad Galli)改进
OutlierTrimmer()
的用户指南 (Soledad Galli)改进
LagFeatures
、ExpandingWindowFeatures
和WindowFeatures
的用户指南(Soledad Galli)为
Pipeline
添加用户指南 (Soledad Galli)改进功能创建用户指南索引 (Soledad Galli 和 Morgan Sell)
在Readme中制作一键复制代码 (Darigov Research)
弃用#
我们移除了对 Python 3.8 的支持 (Soledad Galli)
我们将 pandas 和 Scikit-learn 的依赖更新到最新版本 (Soledad Galli)