版本 0.6.X#
版本 0.6.1#
部署日期:2020年9月18日,星期五
贡献者: Soledad Galli
- 小改动:
更新文档:更新并扩展了贡献指南,添加了治理内容,更新了与Feature-engine在线相关的引用。
更新后的自述文件: 更新和扩展了自述文件。
版本 0.6.0#
部署日期:2020年8月14日,星期五
- 贡献者:
Michał Gromiec
苏里亚·克里希纳穆尔蒂
格列布·列维茨基
Karthik Kothareddy
理查德·科尼利厄斯·苏万迪
克里斯·萨米乌拉
Soledad Galli
- 重大变化:
新转换器:
MathematicalCombinator
允许你通过执行求和、乘积、均值、标准差或查找最小值和最大值等数学运算,将多个特征组合成新的变量(由 Michał Gromiec 提供)。新转换器:
DropFeatures
允许你从数据集中移除指定的变量(由 Karthik Kothareddy 提供)。新转换器:
DecisionTreeCategoricalEncoder
使用决策树对分类变量进行编码(由 Surya Krishnamurthy 开发)。Bug 修复:
SklearnTransformerWrapper
现在可以根据用户实现的 Scikit-learn 转换器自动选择数值或数值和分类变量(由 Michał Gromiec 提供)。Bug 修复:
SklearnTransformerWrapper
现在可以包装 Scikit-learn 的 OneHotEncoder 并将二进制特征连接回原始数据框 (由 Michał Gromiec 贡献)。新增功能:
ArbitraryNumberImputer
现在可以接受一个变量与任意数值对的字典,以使用不同的数值填补不同的变量(由 Michał Gromiec 提供)。新增功能:
CategoricalVariableImputer
现在可以通过用户定义的字符串替换分类变量中的缺失数据(由 Gleb Levitskiy 提供)。新增功能:
RareLabelEncoder
现在允许用户在分组不常见值时确定变量应具有的最大类别数(由 Surya Krishnamurthy 提供)。
- 小改动:
改进的文档:修复了拼写错误并整理了 Readme.md(由 Richard Cornelius Suwandi 完成)
改进的工程实践:在 pypi 的 tar 包中添加了 Manifest.in 以包含 md 和许可证(由 Chris Samiullah 提供)
改进的工程实践:更新了circleci yaml,并为具有重大变化的新版本的协调发布创建了发布分支(由Soledad Galli和Chris Samiullah完成)
改进的工程实践:在 circleci yaml 中添加了文档构建测试(由 Soledad Galli 和 Chris Samiullah 完成)
Transformer 修复:从 RareLabelEncoder 中移除了参数 return_object,因为它没有按预期工作(由 Karthik Kothareddy 和 Soledad Galli 完成)
版本 0.5.0#
部署日期:2020年7月10日,星期五
贡献者: Soledad Galli
- 重大变化:
- Bug 修复: 修复了
WoERatioCategoricalEncoder
中证据权重公式的错误。旧公式 np.log( p(1) / p(0) ) 被保留,可以通过将encoding_method
设置为 ‘log_ratio’ 来获取。如果encoding_method
设置为 ‘woe’,现在将使用正确的公式。 新增功能:大多数分类编码器都有
inverse_transform
选项,用于从转换后的数据集中获取变量的原始值。
- Bug 修复: 修复了
新增功能:
'Winsorizer`
、OutlierTrimmer
和ArbitraryOutlierCapper
现在可以选择忽略缺失值,并从原始变量分布中获取参数,或者如果数据框包含 na 则通过将参数missing_values
设置为raise
或ignore
来引发错误。新转换器:
UserInputDiscretiser
允许用户将数值变量离散化为任意定义的桶。
版本 0.4.3#
部署日期:2020年5月15日,星期五
贡献者:Soledad Galli, Christopher Samiullah
- 重大变化:
新转换器:
'SklearnTransformerWrapper`
允许你在特征的子集上使用大多数 Scikit-learn 转换器。适用于 SimpleImputer、OrdinalEncoder 和大多数缩放器。
- 小改动:
新增功能:
'EqualFrequencyDiscretiser`
和EqualWidthDiscretiser
现在能够返回区间边界以及整数,以标识分箱。要返回边界,请设置参数return_boundaries=True
。改进的文档:添加了贡献部分,您可以在此找到有关如何参与 Feature-engine 代码库开发的信息,以及更多内容。
版本 0.4.0#
部署日期:2020年4月4日,星期一
贡献者:Soledad Galli, Christopher Samiullah
- 重大变化:
已弃用:
FrequentCategoryImputer
已被整合到CategoricalVariableImputer
类中。现在要进行频繁类别插补,请使用:CategoricalVariableImputer(imputation_method='frequent')
重命名:
AddNaNBinaryImputer
现在被称为AddMissingIndicator
。新增:
OutlierTrimmer
被引入到包中,允许你从数据集中移除异常值
- 小改动:
改进:
EndTailImputer
现在新增了一个选项,可以将异常值放置在最大值的某个因子处。改进:
FrequentCategoryImputer
现在具有将数值变量转换为对象的功能,以防您希望将它们作为分类变量进行操作。设置return_object=True
。改进:
RareLabelEncoder
现在允许用户定义用于替换稀有类别的标签名称。改进: 所有特征引擎转换器(缺失数据插补器除外)都会检查数据集中是否不包含缺失值。
改进: 如果变量具有零或负值,
LogTransformer
将引发错误。改进:
ReciprocalTransformer
现在支持整数类型的变量。改进: 如果变量包含值零,
ReciprocalTransformer
将引发错误。改进:如果变量包含负值,
BoxCoxTransformer
将引发错误。改进:
OutlierCapper
现在基于百分位数查找并移除异常值。改进: Feature-engine 现在与最新版本的 Pandas 和 Scikit-learn 兼容。
版本 0.3.0#
部署日期:2019年8月5日,星期一
贡献者:Soledad Galli。
- 重大变化:
新增:
RandomSampleImputer
现在有一个选项,可以为批量插补设置一个种子,或者根据该观察的一个或多个额外数值变量为每个观察设置一个种子观察,这些变量可以通过乘法或加法组合。新增: 已包含
YeoJohnsonTransfomer
以执行数值变量的 Yeo-Johnson 变换。重命名:
ExponentialTransformer
现在被称为PowerTransformer
。改进:
DecisionTreeDiscretiser
现在允许提供一个参数网格来调整决策树,这是通过 GridSearchCV 在后台完成的。新增:所有 Feature-engine 转换器的扩展文档。
新: 快速入门 指南,直接跳转到如何使用 Feature-engine。
新增: 更新日志 以跟踪 Feature-engine 中的新功能。
更新: 新增了带有如何使用 Feature-engine 转换器示例的
Jupyter notebooks
。
- 小改动:
统一:转换器中的字典属性,包含转换映射,现在以
_
结尾,例如binner_dict_
。