版本 1.5.X#
版本 1.5.2#
部署日期:2022年11月21日
新功能#
StringSimilarityEncoder
现在可以根据用户输入的关键词创建相似度变量 (Gleb Levitski)
Winsorizer
和OutlierTrimmer
现在会根据capping_method
自动调整fold
参数的值 (pxn39)
错误修复#
由新版本引发的类型检查错误 (Gleb Levitski)
文档#
将示例代码片段添加到分类编码API文档中 (Alfonso Tobar)
将示例代码片段添加到插补模块API文档中 (Alfonso Tobar)
将示例代码片段添加到离散化模块API文档中 (Alfonso Tobar)
将示例代码片段添加到创建模块API文档中 (Alfonso Tobar)
将示例代码片段添加到 datetime 模块 API 文档中 (Alfonso Tobar)
更新用户指南文档以包含预测功能转换器(Soledad Galli)
更新用户指南文档,包含日期时间特征和周期性特征 (Soledad Galli)
修复 README 中的徽章 (Gleb Levitski)
版本 1.5.0#
部署日期:2022年10月17日
贡献者#
在此版本中,我们修复了一个错误,该错误导致 get_feature_names_out
与 Scikit-learn 管道不兼容。
In addition, thanks to Gleb Levitski, we’ve got a new encoder to replace categories by string similarity variables. Gleb Levitski also made a number of code enhancements to various transformers across the library, making a lot of new functionality available.
最后,我们要感谢 Alfonso Tobar、David Cortes 和 Morgan Sell 为创建新的转换器、修复错误和扩展 Feature-engine 的功能所做的贡献。
非常感谢所有贡献者以及那些创建问题标记错误或请求新功能的人。
新的变压器#
StringSimilarityEncoder: 基于字符串相似度编码分类变量 (Gleb Levitski)
MatchCategories: 匹配训练集和测试集中的类别,当类型为 pandas 分类时 (David Cortes)
SelectByInformationValue: 根据信息值选择特征 (Morgan Sell 和 Soledad Galli)
新功能#
MeanEncoder
现在可以在编码过程中实现平滑处理,以应对高基数问题 (Gleb Levitski)
MeanEncoder
现在可以编码未见过的类别 (Gleb Levitski)
OrdinalEncoder
现在可以编码未见过的类别 (Soledad Galli)
CountFrequencyEncoder
现在可以编码未见过的类别 (David Cortes)所有异常值转换器现在可以根据MAD规则检测异常值 (Gleb Levitski)
在
DropHighPSIFeatures
中添加 PSI 阈值的自动计算 (Gleb Levitski)所有特征选择转换器现在都有
get_support()
方法 (Soledad Galli)
错误修复#
get_feature_names_out
现在与 Scikit-learn 管道中的所有转换器兼容 (Soledad Galli)编码器中的
inverse_transform
方法现在能够正确处理未见过的类别或引发未实现错误 (Soledad Galli)修复了
SklearnTransformerWrapper
对OneHotEncoder
和PolynomialFeatures
的输出 (Alfonso Tobar)
文档#
向文档添加更多资源 (Soledad Galli)
StringSimilarityEncoder
的用户指南 (Gleb Levitski)新的 Jupyter 笔记本用于
StringSimilarityEncoder
(Gleb Levitski)SelectByInformationValue 的用户指南 (Morgan Sell 和 Soledad Galli)
弃用#
编码器中的参数
errors
现在被unseen
取代 (Soledad Galli)
MathematicalCombination
、CombineWithFeatureReference
和CyclicalTransformer
类已被移除 (Soledad Galli)我们将在版本1.5中弃用
PRatioEncoder
,并将在版本1.6中移除它 (Soledad Galli)
代码改进#
添加代码覆盖率测试 (Soledad Galli)
更改了未见类别编码的逻辑,以与 inverse_transform 一起工作 (Soledad Galli)
增加编码器的代码覆盖率 (Soledad Galli)
移除 CategoricalInitExpandedMixin (Soledad Galli)
移除所有编码器中对编码字典的检查 (Soledad Galli)
重构创建模块 (Soledad Galli)
重构了文档字符串模块 (Soledad Galli)
重构变量处理模块 (Soledad Galli)
重构数值字典检查 (Soledad Galli)
重构基础转换器模块 (Soledad Galli)
使数据框检查更高效 (Soledad Galli)
在所有基于目标的编码器中,将 pd.concat 替换为 pd.group (Soledad Galli)