shap.datasets.california

shap.datasets.california(n_points=None)[源代码]

以结构化格式返回加利福尼亚住房数据。

参数:
n_pointsint, 可选

要采样的数据点数量。如果提供,将随机采样指定数量的点。

返回:
包含数据的 pandas DataFrame 元组和表示目标的 numpy 数组。

数据包括以下特征:

  • MedInc : 街区的中位收入

  • HouseAge : 街区中房屋年龄的中位数

  • AveRooms : 住宅平均房间数

  • AveBedrms : 住宅中的平均卧室数

  • Population : 区块人口

  • AveOccup : 平均房屋占用率

  • Latitude : 房屋区块纬度

  • Longitude : 房屋区块经度

目标列表示加利福尼亚地区的中位房屋价值。

参考文献

加利福尼亚住房数据集: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html

示例

要获取处理后的数据和目标标签:

data, target = shap.datasets.california()