KBinsDiscretizer#
- class sklearn.preprocessing.KBinsDiscretizer(n_bins=5, *, encode='onehot', strategy='quantile', dtype=None, subsample=200000, random_state=None)#
将连续数据分箱到区间中。
更多信息请参阅 用户指南 。
Added in version 0.20.
- Parameters:
- n_binsint 或 array-like 形状 (n_features,), 默认=5
要生成的箱数。如果
n_bins < 2
,则引发 ValueError。- encode{‘onehot’, ‘onehot-dense’, ‘ordinal’}, 默认=’onehot’
用于编码转换结果的方法。
‘onehot’: 使用独热编码对转换结果进行编码并返回稀疏矩阵。被忽略的特征总是堆叠在右侧。
‘onehot-dense’: 使用独热编码对转换结果进行编码并返回密集数组。被忽略的特征总是堆叠在右侧。
‘ordinal’: 返回以整数值编码的箱标识符。
- strategy{‘uniform’, ‘quantile’, ‘kmeans’}, 默认=’quantile’
用于定义箱宽的策略。
‘uniform’: 每个特征中的所有箱具有相同的宽度。
‘quantile’: 每个特征中的所有箱具有相同数量的点。
‘kmeans’: 每个箱中的值具有相同的 1D k-means 聚类的最近中心。
有关不同策略的示例,请参见: 展示KBinsDiscretizer的不同策略 。
- dtype{np.float32, np.float64}, 默认=None
输出的期望数据类型。如果为 None,则输出数据类型与输入数据类型一致。仅支持 np.float32 和 np.float64。
Added in version 0.24.
- subsampleint 或 None, 默认=200_000
用于拟合模型的最大样本数,以提高计算效率。
subsample=None
表示在确定分箱阈值时使用所有训练样本。 由于分位数计算依赖于对X
的每一列进行排序,而排序具有n log(n)
的时间复杂度, 因此建议在样本数量非常大的数据集上使用子采样。Changed in version 1.3: 当
strategy="quantile"
时,subsample
的默认值从None
更改为200_000
。Changed in version 1.5: 当
strategy="uniform"
或strategy="kmeans"
时,subsample
的默认值从None
更改为200_000
。- random_stateint, RandomState 实例或 None, 默认=None
用于子采样的随机数生成。 传递一个 int 以在多次函数调用中获得可重复的结果。 有关详细信息,请参见
subsample
参数。 参见 Glossary 。Added in version 1.1.
- Attributes:
- bin_edges_ndarray of ndarray of shape (n_features,)
每个箱的边缘。包含形状各异的数组
(n_bins_, )
。被忽略的特征将有空数组。- n_bins_ndarray of shape (n_features,), dtype=np.int64
每个特征的箱数。宽度太小的箱(即 <= 1e-8)将被移除并发出警告。
- n_features_in_int
在 fit 期间看到的特征数量。
Added in version 0.24.
- feature_names_in_ndarray of shape (
n_features_in_
,) 在 fit 期间看到的特征名称。仅当
X
中的特征名称均为字符串时定义。Added in version 1.0.
See also
Binarizer
用于根据参数
threshold
将值二值化为0
或1
的类。
Notes
有关不同数据集上的分箱可视化,请参见 特征离散化 。 有关分箱对线性模型的影响,请参见: 使用KBinsDiscretizer离散连续特征 。
在特征
i
的箱边缘中,第一个和最后一个值仅用于inverse_transform
。在转换期间,箱边缘将扩展为:np.concatenate([-np.inf, bin_edges_[i][1:-1], np.inf])
如果只想预处理部分特征,可以将
KBinsDiscretizer
与ColumnTransformer
结合使用。KBinsDiscretizer
可能会产生常量特征(例如,当encode = 'onehot'
且某些箱不包含任何数据时)。 可以使用特征选择算法(例如,VarianceThreshold
)移除这些特征。Examples
>>> from sklearn.preprocessing import KBinsDiscretizer >>> X = [[-2, 1, -4, -1], ... [-1, 2, -3, -0.5], ... [ 0, 3, -2, 0.5], ... [ 1, 4, -1, 2]] >>> est = KBinsDiscretizer( ... n_bins=3, encode='ordinal', strategy='uniform' ... ) >>> est.fit(X) KBinsDiscretizer(...) >>> Xt = est.transform(X) >>> Xt array([[ 0., 0., 0., 0.], [ 1., 1., 1., 0.], [ 2., 2., 2., 1.], [ 2., 2., 2., 2.]])
有时可能需要将数据转换回原始特征空间。
inverse_transform
函数将分箱数据转换回原始特征空间。每个值将等于两个箱边缘的平均值。>>> est.bin_edges_[0] array([-2., -1., 0., 1.]) >>> est.inverse_transform(Xt) array([[-1.5, 1.5, -3.5, -0.5], [-0.5, 2.5, -2.5, -0.5], [ 0.5, 3.5, -1.5, 0.5], [ 0.5, 3.5, -1.5, 1.5]])
- fit(X, y=None, sample_weight=None)#
拟合估计器。
- Parameters:
- X形状为 (n_samples, n_features) 的类数组
要离散化的数据。
- yNone
忽略。此参数仅用于与
Pipeline
兼容。- sample_weight形状为 (n_samples,) 的 ndarray
包含要与每个样本关联的权重值。 当
strategy
设置为"uniform"
时不能使用。Added in version 1.3.
- Returns:
- selfobject
返回实例本身。
- fit_transform(X, y=None, **fit_params)#
拟合数据,然后进行转换。
将转换器拟合到
X
和y
,并带有可选参数fit_params
, 并返回X
的转换版本。- Parameters:
- X形状为 (n_samples, n_features) 的类数组
输入样本。
- y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组, 默认=None
目标值(无监督转换为 None)。
- **fit_paramsdict
其他拟合参数。
- Returns:
- X_new形状为 (n_samples, n_features_new) 的 ndarray 数组
转换后的数组。
- get_feature_names_out(input_features=None)#
获取输出特征名称。
- Parameters:
- input_features字符串数组或None,默认=None
输入特征。
如果
input_features
是None
,则使用feature_names_in_
作为输入特征名称。如果feature_names_in_
未定义,则生成以下输入特征名称:["x0", "x1", ..., "x(n_features_in_ - 1)"]
。如果
input_features
是数组类型,则input_features
必须与feature_names_in_
匹配,如果feature_names_in_
已定义。
- Returns:
- feature_names_out字符串对象的ndarray
转换后的特征名称。
- get_metadata_routing()#
获取此对象的元数据路由。
请查看 用户指南 以了解路由机制的工作原理。
- Returns:
- routingMetadataRequest
MetadataRequest
封装的 路由信息。
- get_params(deep=True)#
获取此估计器的参数。
- Parameters:
- deepbool, 默认=True
如果为True,将返回此估计器和包含的子对象(也是估计器)的参数。
- Returns:
- paramsdict
参数名称映射到它们的值。
- inverse_transform(X=None, *, Xt=None)#
将离散化数据转换回原始特征空间。
请注意,由于离散化舍入,此函数不会再生原始数据。
- Parameters:
- X形状为 (n_samples, n_features) 的类数组
分箱空间中的转换数据。
- Xt形状为 (n_samples, n_features) 的类数组
分箱空间中的转换数据。
Deprecated since version 1.5:
Xt
在 1.5 版本中已弃用,并将在 1.7 版本中移除。请改用X
。
- Returns:
- Xinvndarray, dtype={np.float32, np.float64}
原始特征空间中的数据。
- set_fit_request(*, sample_weight: bool | None | str = '$UNCHANGED$') KBinsDiscretizer #
Request metadata passed to the
fit
method.Note that this method is only relevant if
enable_metadata_routing=True
(seesklearn.set_config
). Please see User Guide on how the routing mechanism works.The options for each parameter are:
True
: metadata is requested, and passed tofit
if provided. The request is ignored if metadata is not provided.False
: metadata is not requested and the meta-estimator will not pass it tofit
.None
: metadata is not requested, and the meta-estimator will raise an error if the user provides it.str
: metadata should be passed to the meta-estimator with this given alias instead of the original name.
The default (
sklearn.utils.metadata_routing.UNCHANGED
) retains the existing request. This allows you to change the request for some parameters and not others.Added in version 1.3.
Note
This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a
Pipeline
. Otherwise it has no effect.- Parameters:
- sample_weightstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
Metadata routing for
sample_weight
parameter infit
.
- Returns:
- selfobject
The updated object.
- set_output(*, transform=None)#
设置输出容器。
请参阅 介绍 set_output API 以了解如何使用API的示例。
- Parameters:
- transform{“default”, “pandas”, “polars”}, 默认=None
配置
transform
和fit_transform
的输出。"default"
: 转换器的默认输出格式"pandas"
: DataFrame 输出"polars"
: Polars 输出None
: 转换配置不变
Added in version 1.4:
"polars"
选项已添加。
- Returns:
- self估计器实例
估计器实例。
- set_params(**params)#
设置此估计器的参数。
该方法适用于简单估计器以及嵌套对象(例如
Pipeline
)。后者具有形式为<component>__<parameter>
的参数,以便可以更新嵌套对象的每个组件。- Parameters:
- **paramsdict
估计器参数。
- Returns:
- selfestimator instance
估计器实例。
- transform(X)#
离散化数据。
- Parameters:
- X形状为 (n_samples, n_features) 的类数组
要离散化的数据。
- Returns:
- Xt{ndarray, sparse matrix}, dtype={np.float32, np.float64}
分箱空间中的数据。如果
self.encode='onehot'
,则将是稀疏矩阵,否则为 ndarray。