load__titanic#

feature_engine.datasets.load_titanic(return_X_y_frame=False, predictors_only=False, handle_missing=False, cabin=None)[源代码][源代码]#

load_titanic() 函数返回著名的泰坦尼克数据集。

请注意,您需要有互联网连接才能使此功能正常工作,因为我们正在调用存储在 openML 中的数据集,该数据集可以从 这里 下载。

参数
return_X_y_frame: bool, default=False

如果 True,它返回一个包含预测变量的 DataFrame (X) 和一个包含目标变量的 Series (y)。如果 False,它返回一个包含预测变量和目标变量的单一 DataFrame。

predictors_only: bool, default=False

如果 False,它返回原始泰坦尼克号数据集中的所有变量。如果 True,它只返回相关的预测因子。

handle_missing: bool, default=False

如果 False,它返回包含缺失值的原始数据集。如果 True,缺失数据在分类变量中被替换为字符串 “Missing”,在数值变量中被替换为均值。

cabin: str, default=None

如果 None,它返回原始数据中的变量 cabin。如果为 ‘drop’,它从数据中移除该变量。如果为 ‘letter_only’,它只返回 cabin 的第一个字母,不包括数字。

示例

>>> from feature_engine.datasets import load_titanic
>>> data = load_titanic(predictors_only=True, cabin="drop")
>>> print(data.head())
   pclass  survived     sex      age  sibsp  parch      fare embarked
0       1         1  female  29.0000      0      0  211.3375        S
1       1         1    male   0.9167      1      2  151.5500        S
2       1         0  female   2.0000      1      2  151.5500        S
3       1         0    male  30.0000      1      2  151.5500        S
4       1         0  female  25.0000      1      2  151.5500        S