dask_ml.compose.make_column_transformer

dask_ml.compose.make_column_transformer

dask_ml.compose.make_column_transformer(*transformers, **kwargs)[源代码]

从给定的转换器构建一个 ColumnTransformer。

这是 ColumnTransformer 构造函数的简写;它不需要,也不允许,命名转换器。相反,它们将根据其类型自动命名。它也不允许使用 transformer_weights 进行加权。

更多信息请参阅 用户指南

参数
*转换器元组

形式为 (transformer, columns) 的元组,指定要应用于数据子集的转换器对象。

transformer{‘drop’, ‘passthrough’} 或 estimator

估计器必须支持 拟合转换 。特殊情况下的字符串 ‘drop’ 和 ‘passthrough’ 也是可接受的,分别表示删除列或不经过转换直接传递它们。

columnsstr, array-like of str, int, array-like of int, slice, array-like of bool 或 callable

Indexes the data on its second axis. Integers are interpreted as positional columns, while strings can reference DataFrame columns by name. A scalar string or int should be used where transformer expects X to be a 1d array-like (vector), otherwise a 2d array will be passed to the transformer. A callable is passed the input data X and can return any of the above. To select multiple columns by name or dtype, you can use make_column_selector.

余数{‘drop’, ‘passthrough’} 或估计器,默认=’drop’

默认情况下,只有 transformers 中指定的列会在输出中进行转换和合并,未指定的列将被丢弃。('drop' 的默认值)。通过指定 remainder='passthrough',所有未在 transformers 中指定的剩余列将自动传递。这一列子集将与转换器的输出连接。通过将 remainder 设置为一个估计器,未指定的剩余列将使用 remainder 估计器。该估计器必须支持 fittransform

sparse_thresholdfloat, 默认值=0.3

如果转换后的输出包含稀疏和密集数据的混合,如果密度低于此值,它将被堆叠为稀疏矩阵。使用 sparse_threshold=0 以始终返回密集矩阵。当转换后的输出包含所有稀疏或所有密集数据时,堆叠结果将分别为稀疏或密集,并且此关键字将被忽略。

n_jobsint, 默认=None

Number of jobs to run in parallel. None means 1 unless in a joblib.parallel_backend context. -1 means using all processors. See Glossary for more details.

详细bool, 默认=False

如果为真,每个转换器拟合所花费的时间将在完成后打印出来。

verbose_feature_names_outbool, 默认=True

如果为 True,ColumnTransformer.get_feature_names_out() 将在所有特征名称前加上生成该特征的转换器的名称。如果为 False,ColumnTransformer.get_feature_names_out() 将不会为任何特征名称添加前缀,并且在特征名称不唯一时会报错。

1.0 新版功能.

force_int_remainder_colsbool, 默认=True

强制 transformers_ 的最后一个条目的列,这对应于“剩余”转换器,始终存储为索引(int)而不是列名(str)。有关详细信息,请参阅 ColumnTransformer.transformers_ 属性的描述。

备注

如果你不访问 ColumnTransformer.transformers_ 拟合属性中剩余列的列列表,则不需要设置此参数。

1.5 新版功能.

在 1.7 版更改: 在版本1.7中,force_int_remainder_cols 的默认值将从 True 更改为 False

返回
ctColumnTransformer

返回一个 ColumnTransformer 对象。

参见

ColumnTransformer

该类允许将多个转换器对象在数据列子集上的输出组合成一个单一的特征空间。

示例

>>> from sklearn.preprocessing import StandardScaler, OneHotEncoder
>>> from sklearn.compose import make_column_transformer
>>> make_column_transformer(
...     (StandardScaler(), ['numerical_column']),
...     (OneHotEncoder(), ['categorical_column']))
ColumnTransformer(transformers=[('standardscaler', StandardScaler(...),
                                 ['numerical_column']),
                                ('onehotencoder', OneHotEncoder(...),
                                 ['categorical_column'])])