OrdinalEncoder#

class feature_engine.encoding.OrdinalEncoder(encoding_method='ordered', variables=None, missing_values='raise', ignore_format=False, unseen='ignore')[源代码][源代码]#

OrdinalEncoder() 用序数（0, 1, 2, 3 等）替换类别。这些数字可以根据每个类别的目标均值进行排序，或者任意分配。

默认情况下，编码器只会对类别变量（类型为 ‘object’ 或 ‘categorical’）进行编码。你可以传递一个变量列表进行编码。或者，编码器会自动查找并编码所有类别变量（类型为 ‘object’ 或 ‘categorical’）。

使用 ignore_format=True，您可以选择将数值变量也进行编码。该过程是相同的，您可以输入要编码的变量列表，或者转换器将自动选择所有变量。

编码器首先将每个变量的类别映射为数字（拟合）。然后，编码器将类别转换为映射的数字（转换）。

更多详情请参阅用户指南。

参数

encoding_method: str, default=’ordered’

所需的编码方法。

‘ordered’：类别按每个类别的目标平均值的升序编号。

‘任意’: 类别被任意编号。

变量: 列表, 默认=None

将要编码的分类变量的列表。如果为 None，编码器将默认查找并转换所有类型为对象或分类的变量。你也可以让转换器接受数值变量，参见参数 ignore_format。

missing_values: string, default=’raise’

指示是否应忽略缺失值或引发异常。如果设置为 'raise'，当 fit 或 transform 的数据集包含缺失值时，转换器将返回错误。如果设置为 'ignore'，在学习参数或执行转换时将忽略缺失数据。

ignore_format: bool, default=False

此转换器仅对对象类型或分类类型的变量进行操作。要覆盖此行为并允许转换器也转换数值变量，请设置为 True。

如果 ignore_format 为 False，编码器将自动选择类型为对象或分类的变量，或检查用户输入的变量是否为对象或分类类型。如果为 True，编码器将选择所有变量或接受用户输入的所有变量，包括那些被转换为数值类型的变量。

简而言之，当你想要编码数值变量时，设置为 True。

unseen: string, default=’ignore’

指示在转换过程中遇到训练集中不存在的类别时应采取的操作。如果 'raise'，则未见过的类别将引发错误。如果 'ignore'，则未见过的类别将被编码为 NaN，并会引发警告。如果 'encode'，未见过的类别将被编码为 -1。

属性

encoder_dict_:: 按类别、按变量排序的序数词典。
变量_: 将被转换的变量组。
feature_names_in_:: 列出在 fit 过程中看到的特征名称。
n_features_in_:: 在拟合过程中使用的训练集中的特征数量。

参见

feature_engine.encoding.RareLabelEncoder
category_encoders.ordinal.OrdinalEncoder

注释

当编码训练数据集中未出现的类别时，会引入NAN。如果发生这种情况，尝试使用RareLabelEncoder()对不常见的类别进行分组。

在开源包 Category encoders 中有一个类似的实现。

参考文献

按照目标均值排序编码为整数在以下 PyData London 2017 的演讲中进行了讨论：

1: Galli S. “机器学习在金融风险评估中的应用”。https://www.youtube.com/watch?v=KHGGlozsRtA

示例

>>> import pandas as pd
>>> from feature_engine.encoding import OrdinalEncoder
>>> X = pd.DataFrame(dict(x1 = [1,2,3,4], x2 = ["c", "a", "b", "c"]))
>>> y = pd.Series([0,1,1,0])
>>> od = OrdinalEncoder(encoding_method='arbitrary')
>>> od.fit(X)
>>> od.transform(X)
   x1  x2
0   1   0
1   2   1
2   3   2
3   4   0

你也可以考虑目标变量的顺序：

>>> y = pd.Series([1,0,1,1])
>>> od = OrdinalEncoder(encoding_method='ordered')
>>> od.fit(X, y)
>>> od.transform(X)
   x1  x2
0   1   2
1   2   0
2   3   1
3   4   2

方法

拟合：	找到每个变量中每个类别要替换的整数。
fit_transform:	拟合数据，然后进行转换。
get_feature_names_out:	获取转换后的输出特征名称。
get_params:	获取此估计器的参数。
设置参数:	设置此估计器的参数。
inverse_transform:	将数据转换回原始表示形式。
转换：	将类别编码为数字。

fit(X, y=None)[源代码][源代码]#

学习每个变量中用于替换类别的数字。

参数

X: pandas dataframe of shape = [n_samples, n_features]: 训练输入样本。可以是整个数据框，而不仅仅是需要编码的变量。
y: pandas 系列, 默认=None: 目标。如果 encoding_method='arbitrary'，则可以为 None。否则，在拟合转换器时需要传递 y。

fit_transform(X, y=None, **fit_params)[源代码]#

拟合数据，然后进行转换。

使用可选参数 fit_params 将转换器拟合到 X 和 y，并返回 X 的转换版本。

参数

X类似数组的形状 (n_samples, n_features): 输入样本。
y类数组的形状 (n_samples,) 或 (n_samples, n_outputs), 默认=None: 目标值（无监督变换为 None）。
**fit_参数dict: 额外的拟合参数。

返回

X_newndarray 形状为 (n_samples, n_features_new): 转换后的数组。

get_feature_names_out(input_features=None)[源代码]#

获取转换后的特征名称。换句话说，返回转换后的数据框的变量名称。

参数

input_features数组或列表，默认=None

此参数仅为了与 Scikit-learn 管道兼容而存在。

如果 None，则使用 feature_names_in_ 作为特征名称。
如果是一个数组或列表，那么 input_features 必须与 feature_names_in_ 匹配。

返回

feature_names_out: list: 转换后的特征名称。

rtype: List[Union[str, int]] ..

get_metadata_routing()[源代码]#

获取此对象的元数据路由。

请查看用户指南以了解路由机制的工作原理。

返回

路由MetadataRequest: 一个封装了路由信息的 MetadataRequest。

get_params(deep=True)[源代码]#

获取此估计器的参数。

参数

深度bool, 默认=True: 如果为真，将返回此估计器及其包含的作为估计器的子对象的参数。

返回

参数dict: 参数名称映射到它们的值。

inverse_transform(X)[源代码]#

将编码后的变量转换回原始值。

参数

X: pandas 数据框，形状为 [n_samples, n_features]。: 转换后的数据框。

返回

X_tr: 形状为 [n_samples, n_features] 的 pandas 数据框。: 未经转换的数据框，其中分类变量包含原始值。

rtype: DataFrame ..

set_params(**params)[源代码]#

设置此估计器的参数。

该方法适用于简单的估计器以及嵌套对象（如 Pipeline）。后者的参数形式为 <component>__<parameter>，因此可以更新嵌套对象的每个组件。

参数

**参数dict: 估计器参数。

返回

self估计器实例: 估计器实例。

transform(X)[源代码]#

用学习到的参数替换类别。

参数

X: pandas 数据框，形状为 [n_samples, n_features]。: 要转换的数据集。

返回

X_new: 形状为 [n_samples, n_features] 的 pandas dataframe。: 包含类别被数字替换的数据框。

rtype: DataFrame ..

This site uses cookies

OrdinalEncoder#