NearestCentroid#

class sklearn.neighbors.NearestCentroid(metric='euclidean', *, shrink_threshold=None)#

最近邻分类器。

每个类由其质心表示,测试样本被分类到具有最近质心的类。

更多信息请参阅 用户指南

Parameters:
metric{“euclidean”, “manhattan”}, default=”euclidean”

用于距离计算的度量标准。

如果 metric="euclidean" ,每个类对应的样本的质心是算术平均值,这最小化了平方L1距离的总和。 如果 metric="manhattan" ,质心是特征的中位数,这最小化了L1距离的总和。

Changed in version 1.5: "euclidean""manhattan" 之外的所有度量标准已被弃用,现在会引发错误。

Changed in version 0.19: metric='precomputed' 已被弃用,现在会引发错误

shrink_thresholdfloat, default=None

用于收缩质心以移除特征的阈值。

Attributes:
centroids_array-like of shape (n_classes, n_features)

每个类的质心。

classes_array of shape (n_classes,)

唯一的类标签。

n_features_in_int

fit 期间看到的特征数量。

Added in version 0.24.

feature_names_in_ndarray of shape ( n_features_in_ ,)

fit 期间看到的特征名称。仅当 X 的所有特征名称均为字符串时定义。

Added in version 1.0.

See also

KNeighborsClassifier

最近邻分类器。

Notes

当用于带有tf-idf向量的文本分类时,该分类器也被称为Rocchio分类器。

References

Tibshirani, R., Hastie, T., Narasimhan, B., & Chu, G. (2002). Diagnosis of multiple cancer types by shrunken centroids of gene expression. Proceedings of the National Academy of Sciences of the United States of America, 99(10), 6567-6572. The National Academy of Sciences.

Examples

>>> from sklearn.neighbors import NearestCentroid
>>> import numpy as np
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> y = np.array([1, 1, 1, 2, 2, 2])
>>> clf = NearestCentroid()
>>> clf.fit(X, y)
NearestCentroid()
>>> print(clf.predict([[-0.8, -1]]))
[1]

有关更详细的示例,请参见: 最近质心分类

fit(X, y)#

拟合根据给定训练数据的NearestCentroid模型。

Parameters:
X{array-like, sparse matrix},形状为 (n_samples, n_features)

训练向量,其中 n_samples 是样本数量, n_features 是特征数量。 注意,使用稀疏矩阵时不能使用质心收缩。

yarray-like,形状为 (n_samples,)

目标值。

Returns:
selfobject

拟合的估计器。

get_metadata_routing()#

获取此对象的元数据路由。

请查看 用户指南 以了解路由机制的工作原理。

Returns:
routingMetadataRequest

MetadataRequest 封装的 路由信息。

get_params(deep=True)#

获取此估计器的参数。

Parameters:
deepbool, 默认=True

如果为True,将返回此估计器和包含的子对象(也是估计器)的参数。

Returns:
paramsdict

参数名称映射到它们的值。

predict(X)#

执行对测试向量数组 X 的分类。

返回每个样本在 X 中的预测类别 C

Parameters:
X{array-like, sparse matrix} of shape (n_samples, n_features)

测试样本。

Returns:
Cndarray of shape (n_samples,)

预测的类别。

score(X, y, sample_weight=None)#

返回给定测试数据和标签的平均准确率。

在多标签分类中,这是子集准确率,这是一个严格的指标,因为你要求每个样本的每个标签集都被正确预测。

Parameters:
X形状为 (n_samples, n_features) 的类数组

测试样本。

y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组

` X`的真实标签。

sample_weight形状为 (n_samples,) 的类数组,默认=None

样本权重。

Returns:
scorefloat

self.predict(X) 相对于 y 的平均准确率。

set_params(**params)#

设置此估计器的参数。

该方法适用于简单估计器以及嵌套对象(例如 Pipeline )。后者具有形式为 <component>__<parameter> 的参数,以便可以更新嵌套对象的每个组件。

Parameters:
**paramsdict

估计器参数。

Returns:
selfestimator instance

估计器实例。

set_score_request(*, sample_weight: bool | None | str = '$UNCHANGED$') NearestCentroid#

Request metadata passed to the score method.

Note that this method is only relevant if enable_metadata_routing=True (see sklearn.set_config ). Please see User Guide on how the routing mechanism works.

The options for each parameter are:

  • True : metadata is requested, and passed to score if provided. The request is ignored if metadata is not provided.

  • False : metadata is not requested and the meta-estimator will not pass it to score .

  • None : metadata is not requested, and the meta-estimator will raise an error if the user provides it.

  • str : metadata should be passed to the meta-estimator with this given alias instead of the original name.

The default ( sklearn.utils.metadata_routing.UNCHANGED ) retains the existing request. This allows you to change the request for some parameters and not others.

Added in version 1.3.

Note

This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a Pipeline . Otherwise it has no effect.

Parameters:
sample_weightstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED

Metadata routing for sample_weight parameter in score .

Returns:
selfobject

The updated object.