shap.datasets.diabetes

shap.datasets.diabetes(n_points=None)[源代码]

以一个精美的包装返回糖尿病数据。

参数:
n_pointsint, 可选

要采样的数据点数量。如果为 None,则使用整个数据集。

返回:
包含特征的 pandas DataFrame 元组和表示目标的 numpy 数组。

特征列:

  • age (float): 年龄(以年为单位)

  • sex (float): 性别

  • bmi (float): 身体质量指数

  • bp (float): 平均血压

  • s1 (float): 总血清胆固醇

  • s2 (float): 低密度脂蛋白 (LDL胆固醇)

  • s3 (float): 高密度脂蛋白 (HDL胆固醇)

  • s4 (float): 总胆固醇 / HDL胆固醇 比率

  • s5 (float): 血清甘油三酯水平的对数

  • s6 (float): 血糖水平

目标:- 基线一年后糖尿病的进展(浮点数)

注释

糖尿病数据集是来自scikit-learn的更大糖尿病数据集的一个子集。更多详情:https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html

示例

要获取处理后的数据和目标标签:

data, target = shap.datasets.diabetes()