LinearDiscriminantAnalysis#

class sklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001, covariance_estimator=None)#

线性判别分析。

一种具有线性决策边界的分类器,通过拟合类条件密度到数据并使用贝叶斯规则生成。

该模型拟合每个类的高斯密度,假设所有类共享相同的协方差矩阵。

拟合的模型还可以用于通过将其投影到最具判别性的方向来减少输入的维度,使用 transform 方法。

Added in version 0.17.

对于 LinearDiscriminantAnalysisQuadraticDiscriminantAnalysis 之间的比较,请参见 线性判别分析和二次判别分析的协方差椭球体

更多信息请参阅 用户指南

Parameters:
solver{‘svd’, ‘lsqr’, ‘eigen’}, default=’svd’
使用的求解器,可能的值:
  • ‘svd’: 奇异值分解(默认)。 不计算协方差矩阵,因此建议对具有大量特征的数据使用此求解器。

  • ‘lsqr’: 最小二乘解。 可以与收缩或自定义协方差估计器结合使用。

  • ‘eigen’: 特征值分解。 可以与收缩或自定义协方差估计器结合使用。

Changed in version 1.2: solver="svd" 现在具有实验性的数组 API 支持。有关更多详细信息,请参阅 数组 API 用户指南

shrinkage‘auto’ 或 float, default=None
收缩参数,可能的值:
  • None: 无收缩(默认)。

  • ‘auto’: 使用 Ledoit-Wolf 引理的自动收缩。

  • 0 到 1 之间的浮点数:固定收缩参数。

如果使用 covariance_estimator ,则应保留为 None。 注意,收缩仅适用于 ‘lsqr’ 和 ‘eigen’ 求解器。

使用示例请参见 用于分类的普通、Ledoit-Wolf 和 OAS 线性判别分析

priors形状为 (n_classes,) 的类数组, default=None

类先验概率。默认情况下,类比例从训练数据中推断。

n_componentsint, default=None

用于降维的组件数量(<= min(n_classes - 1, n_features))。如果为 None,则设置为 min(n_classes - 1, n_features)。此参数仅影响 transform 方法。

使用示例请参见 LDA和PCA在鸢尾花数据集上的二维投影比较

store_covariancebool, default=False

如果为 True,则在求解器为 ‘svd’ 时显式计算加权类内协方差矩阵。对于其他求解器,该矩阵始终计算并存储。

Added in version 0.17.

tolfloat, default=1.0e-4

X 的奇异值被认为显著的绝对阈值,用于估计 X 的秩。不显著的维度被丢弃。仅在求解器为 ‘svd’ 时使用。

Added in version 0.17.

covariance_estimator协方差估计器, default=None

如果不为 None,则使用 covariance_estimator 估计协方差矩阵,而不是依赖经验协方差估计器(可能带有收缩)。 该对象应具有 fit 方法和 covariance_ 属性,如 sklearn.covariance 中的估计器。 如果为 None,则收缩参数驱动估计。

如果使用 shrinkage ,则应保留为 None。 注意, covariance_estimator 仅适用于 ‘lsqr’ 和 ‘eigen’ 求解器。

Added in version 0.24.

Attributes:
coef_形状为 (n_features,) 或 (n_classes, n_features) 的 ndarray

权重向量。

intercept_形状为 (n_classes,) 的 ndarray

截距项。

covariance_形状为 (n_features, n_features) 的类数组

加权类内协方差矩阵。它对应于 sum_k prior_k * C_k ,其中 C_k 是类 k 中样本的协方差矩阵。 C_k 使用(可能收缩的)有偏协方差估计器进行估计。如果求解器为 ‘svd’,则仅在 store_covariance 为 True 时存在。

explained_variance_ratio_形状为 (n_components,) 的 ndarray

每个选定组件解释的方差百分比。如果未设置 n_components ,则存储所有组件,解释的方差总和等于 1.0。仅在 eigen 或 svd 求解器时可用。

means_形状为 (n_classes, n_features) 的类数组

类内均值。

priors_形状为 (n_classes,) 的类数组

类先验(总和为 1)。

scalings_形状为 (rank, n_classes - 1) 的类数组

在类质心张成的空间中特征的缩放。仅在 ‘svd’ 和 ‘eigen’ 求解器时可用。

xbar_形状为 (n_features,) 的类数组

总体均值。仅在求解器为 ‘svd’ 时存在。

classes_形状为 (n_classes,) 的类数组

唯一类标签。

n_features_in_int

fit 期间看到的特征数量。

Added in version 0.24.

feature_names_in_形状为 ( n_features_in_ ,) 的 ndarray

fit 期间看到的特征名称。仅当 X 的特征名称均为字符串时定义。

Added in version 1.0.

See also

QuadraticDiscriminantAnalysis

二次判别分析。

Examples

>>> import numpy as np
>>> from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> y = np.array([1, 1, 1, 2, 2, 2])
>>> clf = LinearDiscriminantAnalysis()
>>> clf.fit(X, y)
LinearDiscriminantAnalysis()
>>> print(clf.predict([[-0.8, -1]]))
[1]
decision_function(X)#

应用决策函数到一个样本数组。

决策函数等于(直到一个常数因子)模型的对数后验概率,即 log p(y = k | x) 。在二分类设置中,这对应于差异 log p(y = 1 | x) - log p(y = 0 | x) 。参见 LDA 和 QDA 分类器的数学表述

Parameters:
X形状为 (n_samples, n_features) 的类数组

样本数组(测试向量)。

Returns:
C形状为 (n_samples,) 或 (n_samples, n_classes) 的 ndarray

与每个类相关的决策函数值,每个样本。 在二分类情况下,形状为 (n_samples,),给出正类的对数似然比。

fit(X, y)#

拟合线性判别分析模型。

Changed in version 0.19: store_covariance 已移至主构造函数。

Changed in version 0.19: tol 已移至主构造函数。

Parameters:
Xarray-like of shape (n_samples, n_features)

训练数据。

yarray-like of shape (n_samples,)

目标值。

Returns:
selfobject

拟合的估计器。

fit_transform(X, y=None, **fit_params)#

拟合数据,然后进行转换。

将转换器拟合到 Xy ,并带有可选参数 fit_params , 并返回 X 的转换版本。

Parameters:
X形状为 (n_samples, n_features) 的类数组

输入样本。

y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组, 默认=None

目标值(无监督转换为 None)。

**fit_paramsdict

其他拟合参数。

Returns:
X_new形状为 (n_samples, n_features_new) 的 ndarray 数组

转换后的数组。

get_feature_names_out(input_features=None)#

获取转换后的输出特征名称。

输出特征名称将以小写的类名作为前缀。例如,如果转换器输出3个特征,那么输出特征名称将是: ["class_name0", "class_name1", "class_name2"]

Parameters:
input_features类似数组的对象或None,默认为None

仅用于验证特征名称与 fit 中看到的名称。

Returns:
feature_names_outndarray of str对象

转换后的特征名称。

get_metadata_routing()#

获取此对象的元数据路由。

请查看 用户指南 以了解路由机制的工作原理。

Returns:
routingMetadataRequest

MetadataRequest 封装的 路由信息。

get_params(deep=True)#

获取此估计器的参数。

Parameters:
deepbool, 默认=True

如果为True,将返回此估计器和包含的子对象(也是估计器)的参数。

Returns:
paramsdict

参数名称映射到它们的值。

predict(X)#

预测X中的样本类别标签。

Parameters:
X{array-like, sparse matrix},形状为 (n_samples, n_features)

我们希望获取预测的数据矩阵。

Returns:
y_predndarray,形状为 (n_samples,)

包含每个样本类别标签的向量。

predict_log_proba(X)#

估计对数概率。

Parameters:
X类数组,形状为 (n_samples, n_features)

输入数据。

Returns:
Cndarray,形状为 (n_samples, n_classes)

估计的对数概率。

predict_proba(X)#

估计概率。

Parameters:
X形状为 (n_samples, n_features) 的类数组

输入数据。

Returns:
C形状为 (n_samples, n_classes) 的 ndarray

估计的概率。

score(X, y, sample_weight=None)#

返回给定测试数据和标签的平均准确率。

在多标签分类中,这是子集准确率,这是一个严格的指标,因为你要求每个样本的每个标签集都被正确预测。

Parameters:
X形状为 (n_samples, n_features) 的类数组

测试样本。

y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组

` X`的真实标签。

sample_weight形状为 (n_samples,) 的类数组,默认=None

样本权重。

Returns:
scorefloat

self.predict(X) 相对于 y 的平均准确率。

set_output(*, transform=None)#

设置输出容器。

请参阅 介绍 set_output API 以了解如何使用API的示例。

Parameters:
transform{“default”, “pandas”, “polars”}, 默认=None

配置 transformfit_transform 的输出。

  • "default" : 转换器的默认输出格式

  • "pandas" : DataFrame 输出

  • "polars" : Polars 输出

  • None : 转换配置不变

Added in version 1.4: "polars" 选项已添加。

Returns:
self估计器实例

估计器实例。

set_params(**params)#

设置此估计器的参数。

该方法适用于简单估计器以及嵌套对象(例如 Pipeline )。后者具有形式为 <component>__<parameter> 的参数,以便可以更新嵌套对象的每个组件。

Parameters:
**paramsdict

估计器参数。

Returns:
selfestimator instance

估计器实例。

set_score_request(*, sample_weight: bool | None | str = '$UNCHANGED$') LinearDiscriminantAnalysis#

Request metadata passed to the score method.

Note that this method is only relevant if enable_metadata_routing=True (see sklearn.set_config ). Please see User Guide on how the routing mechanism works.

The options for each parameter are:

  • True : metadata is requested, and passed to score if provided. The request is ignored if metadata is not provided.

  • False : metadata is not requested and the meta-estimator will not pass it to score .

  • None : metadata is not requested, and the meta-estimator will raise an error if the user provides it.

  • str : metadata should be passed to the meta-estimator with this given alias instead of the original name.

The default ( sklearn.utils.metadata_routing.UNCHANGED ) retains the existing request. This allows you to change the request for some parameters and not others.

Added in version 1.3.

Note

This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a Pipeline . Otherwise it has no effect.

Parameters:
sample_weightstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED

Metadata routing for sample_weight parameter in score .

Returns:
selfobject

The updated object.

transform(X)#

将数据投影以最大化类别分离。

Parameters:
X形状为 (n_samples, n_features) 的类数组

输入数据。

Returns:
X_new形状为 (n_samples, n_components) 或 (n_samples, min(rank, n_components)) 的 ndarray

变换后的数据。在 ‘svd’ 求解器的情况下,形状为 (n_samples, min(rank, n_components))。