► Keras 3 API 文档 / 内置小型数据集 / 加利福尼亚房价回归数据集

加利福尼亚房价回归数据集

`load_data` function

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)

加载加利福尼亚住房数据集.

该数据集从StatLib仓库获取.

这是一个连续回归数据集,包含20,640个样本,每个样本有8个特征.

目标变量是一个标量:加利福尼亚地区的房价中位数,单位为美元.

8个输入特征如下:

MedInc: 街区组中的收入中位数
HouseAge: 街区组中的房屋年龄中位数
AveRooms: 每户家庭的平均房间数
AveBedrms: 每户家庭的平均卧室数
Population: 街区组人口
AveOccup: 每户家庭的平均成员数
Latitude: 街区组的纬度
Longitude: 街区组的经度

该数据集源自1990年美国人口普查,每行代表一个普查街区组.街区组是美国人口普查局发布样本数据的最小地理单位（一个街区组通常有600到3,000人）.

家庭是指居住在同一住所的一群人.由于该数据集提供的平均房间数和卧室数是按家庭计算的,因此对于家庭数量少且空房多的街区组（如度假胜地）,这些列可能会出现惊人的大值.

参数: version: "small" 或 "large".小版本包含600个样本,大版本包含20,640个样本.小版本的目的是作为已弃用的boston_housing数据集的近似替代品. path: 本地缓存数据集的路径（相对于~/.keras/datasets）. test_split: 保留为测试集的数据比例. seed: 在计算测试分割之前用于打乱数据的随机种子.

返回: Numpy数组元组: (x_train, y_train), (x_test, y_test).

x_train, x_test: 形状为(num_samples, 8)的numpy数组,包含训练样本（对于x_train）或测试样本（对于y_train）.

y_train, y_test: 形状为(num_samples,)的numpy数组,包含目标标量.目标为浮点标量,通常在25,000到500,000之间,表示房价（美元）.

加利福尼亚房价回归数据集

load_data function

加利福尼亚房价回归数据集

load_data function

`load_data` function