dict_learning#

sklearn.decomposition.dict_learning(X, n_components, *, alpha, max_iter=100, tol=1e-08, method='lars', n_jobs=None, dict_init=None, code_init=None, callback=None, verbose=False, random_state=None, return_n_iter=False, positive_dict=False, positive_code=False, method_max_iter=1000)#

解决字典学习矩阵分解问题。

通过求解以下问题，找到最佳字典和相应的稀疏编码来近似数据矩阵X：

(U^*, V^*) = argmin 0.5 || X - U V ||_Fro^2 + alpha * || U ||_1,1

(U,V)

with || V_k ||_2 = 1 for all 0 <= k < n_components

其中V是字典，U是稀疏编码。||.||_Fro表示Frobenius范数，||.||_1,1表示逐项矩阵范数，即矩阵中所有条目绝对值之和。

在用户指南中阅读更多内容。

Parameters:

Xarray-like of shape (n_samples, n_features)

数据矩阵。

n_componentsint

要提取的字典原子数量。

alphaint or float

稀疏性控制参数。

max_iterint, default=100

要执行的最大迭代次数。

tolfloat, default=1e-8

停止条件的容差。

method{‘lars’, ‘cd’}, default=’lars’

使用的方法：

'lars' : 使用最小角回归方法解决lasso问题 ( linear_model.lars_path );
'cd' : 使用坐标下降法计算Lasso解 ( linear_model.Lasso )。如果估计的成分是稀疏的，Lars会更快。

n_jobsint, default=None

要运行的并行作业数。 None 表示1，除非在 joblib.parallel_backend 上下文中。 -1 表示使用所有处理器。有关更多详细信息，请参见术语表。

dict_initndarray of shape (n_components, n_features), default=None

用于热启动场景的字典初始值。仅在 code_init 和 dict_init 都不为None时使用。

code_initndarray of shape (n_samples, n_components), default=None

用于热启动场景的稀疏编码初始值。仅在 code_init 和 dict_init 都不为None时使用。

callbackcallable, default=None

每五次迭代调用一次的可调用对象。

verbosebool, default=False

控制过程的详细程度。

random_stateint, RandomState instance or None, default=None

用于随机初始化字典。传递一个int以在多次函数调用中获得可重复的结果。请参见术语表。

return_n_iterbool, default=False

是否返回迭代次数。

positive_dictbool, default=False

在寻找字典时是否强制非负。

Added in version 0.20.

positive_codebool, default=False

在寻找编码时是否强制非负。

Added in version 0.20.

method_max_iterint, default=1000

要执行的最大迭代次数。

Added in version 0.22.

Returns:

codendarray of shape (n_samples, n_components): 矩阵分解中的稀疏编码因子。
dictionaryndarray of shape (n_components, n_features),: 矩阵分解中的字典因子。
errorsarray: 每次迭代的误差向量。
n_iterint: 运行的迭代次数。仅在 return_n_iter 设置为True时返回。

See also

dict_learning_online: 在线解决字典学习矩阵分解问题。
DictionaryLearning: 找到稀疏编码数据的字典。
MiniBatchDictionaryLearning: 字典学习算法的更快但不太准确的版本。
SparsePCA: 稀疏主成分分析。
MiniBatchSparsePCA: 小批量稀疏主成分分析。

Examples

>>> import numpy as np
>>> from sklearn.datasets import make_sparse_coded_signal
>>> from sklearn.decomposition import dict_learning
>>> X, _, _ = make_sparse_coded_signal(
...     n_samples=30, n_components=15, n_features=20, n_nonzero_coefs=10,
...     random_state=42,
... )
>>> U, V, errors = dict_learning(X, n_components=15, alpha=0.1, random_state=42)

我们可以检查 U 的稀疏程度：

>>> np.mean(U == 0)
0.6...

我们可以比较稀疏编码信号的重建误差的平均平方欧几里得范数与原始信号的平方欧几里得范数：

>>> X_hat = U @ V
>>> np.mean(np.sum((X_hat - X) ** 2, axis=1) / np.sum(X ** 2, axis=1))
0.01...