fastica#

sklearn.decomposition.fastica(X, n_components=None, *, algorithm='parallel', whiten='unit-variance', fun='logcosh', fun_args=None, max_iter=200, tol=0.0001, w_init=None, whiten_solver='svd', random_state=None, return_X_mean=False, compute_sources=True, return_n_iter=False)#

执行快速独立成分分析。

该实现基于[1]。

更多信息请参阅 用户指南

Parameters:
X形状为 (n_samples, n_features) 的类数组

训练向量,其中 n_samples 是样本数量, n_features 是特征数量。

n_componentsint, 默认=None

使用的成分数量。如果传递 None,则使用所有成分。

algorithm{‘parallel’, ‘deflation’}, 默认=’parallel’

指定用于 FastICA 的算法。

whitenstr 或 bool, 默认=’unit-variance’

指定使用的白化策略。

  • 如果为 ‘arbitrary-variance’,则使用具有任意方差的白化。

  • 如果为 ‘unit-variance’,白化矩阵会被重新缩放以确保每个恢复的源具有单位方差。

  • 如果为 False,则数据已被认为是白化的,不执行白化。

Changed in version 1.3: 在 1.3 版本中, whiten 的默认值更改为 ‘unit-variance’。

fun{‘logcosh’, ‘exp’, ‘cube’} 或可调用对象, 默认=’logcosh’

在近似负熵时使用的 G 函数的函数形式。可以是 ‘logcosh’、’exp’ 或 ‘cube’。 你也可以提供自己的函数。它应该返回一个包含函数在点的值及其导数的元组。导数应在最后一个维度上平均。 示例:

def my_g(x):
    return x ** 3, (3 * x ** 2).mean(axis=-1)
fun_argsdict, 默认=None

发送给函数形式的参数。 如果为空或 None 且 fun=’logcosh’,fun_args 将取值 {‘alpha’ : 1.0}。

max_iterint, 默认=200

执行的最大迭代次数。

tolfloat, 默认=1e-4

一个正标量,表示未混合矩阵被认为已收敛的容差。

w_init形状为 (n_components, n_components) 的 ndarray, 默认=None

初始未混合数组。如果 w_init=None ,则使用从正态分布中抽取的值数组。

whiten_solver{“eigh”, “svd”}, 默认=”svd”

用于白化的求解器。

  • “svd” 在问题退化时在数值上更稳定,并且在 n_samples <= n_features 时通常更快。

  • “eigh” 在 n_samples >= n_features 时通常更具内存效率,并且在 n_samples >= 50 * n_features 时可以更快。

Added in version 1.2.

random_stateint, RandomState 实例或 None, 默认=None

用于在未指定时初始化 w_init ,使用正态分布。传递一个 int,以在多次函数调用中获得可重复的结果。 参见 Glossary

return_X_meanbool, 默认=False

如果为 True,则返回 X_mean。

compute_sourcesbool, 默认=True

如果为 False,则不计算源,只计算旋转矩阵。这在处理大数据时可以节省内存。默认为 True。

return_n_iterbool, 默认=False

是否返回迭代次数。

Returns:
K形状为 (n_components, n_features) 的 ndarray 或 None

如果 whiten 为 ‘True’,K 是将数据投影到前 n_components 个主成分上的预白化矩阵。如果 whiten 为 ‘False’,K 为 ‘None’。

W形状为 (n_components, n_components) 的 ndarray

在白化后解混数据的方阵。如果 K 不是 None,混合矩阵是矩阵 W K 的伪逆,否则是 W 的逆。

S形状为 (n_samples, n_components) 的 ndarray 或 None

估计的源矩阵。

X_mean形状为 (n_features,) 的 ndarray

特征的均值。仅在 return_X_mean 为 True 时返回。

n_iterint

如果算法是 “deflation”,n_iter 是所有成分上运行的最大迭代次数。否则,它们只是收敛所需的迭代次数。仅在 return_n_iter 设置为 True 时返回。

Notes

数据矩阵 X 被认为是非高斯(独立)成分的线性组合,即 X = AS,其中 S 的列包含独立成分,A 是线性混合矩阵。简而言之,ICA 试图通过估计一个未混合矩阵 W 来“解混”数据,其中 S = W K X 。 虽然 FastICA 被提出用于估计与特征数量相同的源,但可以通过设置 n_components < n_features 来估计更少的源。在这种情况下,K 不是方阵,估计的 A 是 W K 的伪逆。

该实现最初是为形状为 [n_features, n_samples] 的数据制作的。现在输入在算法应用之前被转置。这使得对于 Fortran 顺序的输入稍微更快。

References

[1]

A. Hyvarinen 和 E. Oja, “Fast Independent Component Analysis”, Algorithms and Applications, Neural Networks, 13(4-5), 2000, pp. 411-430.

Examples

>>> from sklearn.datasets import load_digits
>>> from sklearn.decomposition import fastica
>>> X, _ = load_digits(return_X_y=True)
>>> K, W, S = fastica(X, n_components=7, random_state=0, whiten='unit-variance')
>>> K.shape
(7, 64)
>>> W.shape
(7, 7)
>>> S.shape
(1797, 7)