dask_ml.preprocessing.OrdinalEncoder

dask_ml.preprocessing.OrdinalEncoder

class dask_ml.preprocessing.OrdinalEncoder(columns=None)[源代码]

序数(整数)编码分类列。

参数
序列,可选

要编码的列。必须是分类数据类型。默认情况下,编码所有分类数据类型的列。

属性
columns_索引

编码前/后的训练数据列

categorical_columns_索引

训练数据中的分类列

noncategorical_columns_索引

训练数据中的其余列

dtypes_dict

字典映射列名到任一

  • CategoricalDtype 的实例(pandas >= 0.21.0)

  • 元组 (categories, ordered)

注释

此转换器仅适用于 dask 和 pandas DataFrame。对于 dask DataFrame,您的所有分类变量都应该是已知的。

可以在数据框或数组上使用逆变换。

示例

>>> data = pd.DataFrame({"A": [1, 2, 3, 4],
...                      "B": pd.Categorical(['a', 'a', 'a', 'b'])})
>>> enc = OrdinalEncoder()
>>> trn = enc.fit_transform(data)
>>> trn
   A  B
0  1  0
1  2  0
2  3  0
3  4  1
>>> enc.columns_
Index(['A', 'B'], dtype='object')
>>> enc.non_categorical_columns_
Index(['A'], dtype='object')
>>> enc.categorical_columns_
Index(['B'], dtype='object')
>>> enc.dtypes_
{'B': CategoricalDtype(categories=['a', 'b'], ordered=False)}
>>> enc.fit_transform(dd.from_pandas(data, 2))
Dask DataFrame Structure:
                   A     B
npartitions=2
0              int64  int8
2                ...   ...
3                ...   ...
Dask Name: assign, 8 tasks

方法

fit(X[, y])

确定要编码的分类列。

fit_transform(X[, y])

拟合数据,然后进行转换。

get_metadata_routing()

获取此对象的元数据路由。

get_params([deep])

获取此估计器的参数。

inverse_transform(X)

X 中的列进行逆序编码

set_output(*[, transform])

设置输出容器。

set_params(**params)

设置此估计器的参数。

transform(X[, y])

对 X 中的分类列进行序数编码

__init__(columns=None)[源代码]