添加缺失指示器#
- class feature_engine.imputation.AddMissingIndicator(missing_only=True, variables=None)[源代码][源代码]#
AddMissingIndicator() 添加二进制变量,用于指示数据是否缺失(每个变量一个指示器)。添加的变量(缺失指示器)以原始变量名称加上‘_na’命名。
AddMissingIndicator() 适用于数值和分类变量。你可以传递一个包含应添加缺失指示器的变量的列表。或者,imputer 将选择并在训练集中的所有变量上添加缺失指示器。
注意 如果
missing_only=True
,输入器将仅在fit()
期间显示缺失数据的那些变量上添加缺失指示符。这些变量可能是你在variables
中指定的变量的一个子集。更多详情请参见 用户指南。
- 参数
- missing_only: bool, default=True
如果应在包含缺失数据的变量或所有变量中添加缺失指示符。
True: 只有在
fit()
期间显示缺失数据的变量才会创建指示器。False:将为所有变量创建指示器
- 变量: 列表, 默认=无
要插补的变量列表。如果为 None,插补器将找到并选择所有变量。
- 属性
- 变量_
将为其创建缺失指示符的变量列表。
- feature_names_in_:
列出在
fit
过程中看到的特征名称。- n_features_in_:
在拟合中使用的训练集中的特征数量。
示例
>>> import pandas as pd >>> import numpy as np >>> from feature_engine.imputation import AddMissingIndicator >>> X = pd.DataFrame(dict( >>> x1 = [np.nan,1,1,0,np.nan], >>> x2 = ["a", np.nan, "b", np.nan, "a"], >>> )) >>> ami = AddMissingIndicator() >>> ami.fit(X) >>> ami.transform(X) x1 x2 x1_na x2_na 0 NaN a 1 0 1 1.0 NaN 0 1 2 1.0 b 0 0 3 0.0 NaN 0 1 4 NaN a 1 0
方法
拟合:
查找将为其创建缺失指示符的变量
fit_transform:
拟合数据,然后进行转换。
get_feature_names_out:
获取转换后的输出特征名称。
get_params:
获取此估计器的参数。
设置参数:
设置此估计器的参数。
转换:
添加缺失的指示器。
- fit(X, y=None)[源代码][源代码]#
学习将为哪些变量创建缺失指示器。
- 参数
- X: pandas 数据框,形状为 = [样本数, 特征数]
训练数据集。
- y: pandas Series, default=None
在这个插补中不需要 y。你可以传递 None 或 y。
- fit_transform(X, y=None, **fit_params)[源代码]#
拟合数据,然后进行转换。
使用可选参数
fit_params
将转换器拟合到X
和y
,并返回X
的转换版本。- 参数
- X类似数组的形状 (n_samples, n_features)
输入样本。
- y类似数组的形状 (n_samples,) 或 (n_samples, n_outputs), 默认=None
目标值(无监督变换为None)。
- **fit_参数dict
额外的拟合参数。
- 返回
- X_newndarray 数组的形状为 (n_samples, n_features_new)
转换后的数组。
- get_metadata_routing()[源代码]#
获取此对象的元数据路由。
请查看 用户指南 以了解路由机制的工作原理。
- 返回
- 路由MetadataRequest
一个封装了路由信息的
MetadataRequest
。
- get_params(deep=True)[源代码]#
获取此估计器的参数。
- 参数
- 深bool, 默认=True
如果为 True,将返回此估计器及其包含的作为估计器的子对象的参数。
- 返回
- 参数dict
参数名称映射到它们的值。