load__titanic#

feature_engine.datasets.load_titanic(return_X_y_frame=False, predictors_only=False, handle_missing=False, cabin=None)[源代码][源代码]#

load_titanic() 函数返回著名的泰坦尼克数据集。

请注意，您需要有互联网连接才能使此功能正常工作，因为我们正在调用存储在 openML 中的数据集，该数据集可以从这里下载。

参数

return_X_y_frame: bool, default=False: 如果 True，它返回一个包含预测变量的 DataFrame (X) 和一个包含目标变量的 Series (y)。如果 False，它返回一个包含预测变量和目标变量的单一 DataFrame。
predictors_only: bool, default=False: 如果 False，它返回原始泰坦尼克号数据集中的所有变量。如果 True，它只返回相关的预测因子。
handle_missing: bool, default=False: 如果 False，它返回包含缺失值的原始数据集。如果 True，缺失数据在分类变量中被替换为字符串 “Missing”，在数值变量中被替换为均值。
cabin: str, default=None: 如果 None，它返回原始数据中的变量 cabin。如果为 ‘drop’，它从数据中移除该变量。如果为 ‘letter_only’，它只返回 cabin 的第一个字母，不包括数字。

示例

>>> from feature_engine.datasets import load_titanic
>>> data = load_titanic(predictors_only=True, cabin="drop")
>>> print(data.head())
   pclass  survived     sex      age  sibsp  parch      fare embarked
0       1         1  female  29.0000      0      0  211.3375        S
1       1         1    male   0.9167      1      2  151.5500        S
2       1         0  female   2.0000      1      2  151.5500        S
3       1         0    male  30.0000      1      2  151.5500        S
4       1         0  female  25.0000      1      2  151.5500        S

This site uses cookies

load__titanic#