shap.utils.hclust

shap.utils.hclust(X, y=None, linkage='single', metric='auto', random_state=0)[源代码]

拟合一个层次聚类模型,用于特征 X 相对于目标变量 y。

有关聚类方法的更多信息,请参见:https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html

参数:
X: np.array

功能分组

y: np.array | None

目标变量

linkage: str

定义计算簇之间距离的方法。必须是“single”、“complete”或“average”之一。

metric: str

Scipy 距离度量或“xgboost_distances_r2”。

  • 如果使用 “xgboost_distances_r2”,则使用 shap.utils.xgboost_distances_r2() 估计特征 X 相对于目标变量 y 之间的冗余距离。

  • 否则,使用给定的距离度量计算特征之间的距离。

  • 如果 auto (默认),如果提供了目标变量,则使用 xgboost_distances_r2,否则使用 cosine 距离度量。

random_state: int

Numpy 随机状态

返回:
聚类: np.array

编码为链接矩阵的层次聚类。