load__titanic#
- feature_engine.datasets.load_titanic(return_X_y_frame=False, predictors_only=False, handle_missing=False, cabin=None)[源代码][源代码]#
load_titanic() 函数返回著名的泰坦尼克数据集。
请注意,您需要有互联网连接才能使此功能正常工作,因为我们正在调用存储在 openML 中的数据集,该数据集可以从 这里 下载。
- 参数
- return_X_y_frame: bool, default=False
如果
True,它返回一个包含预测变量的 DataFrame (X) 和一个包含目标变量的 Series (y)。如果False,它返回一个包含预测变量和目标变量的单一 DataFrame。- predictors_only: bool, default=False
如果
False,它返回原始泰坦尼克号数据集中的所有变量。如果True,它只返回相关的预测因子。- handle_missing: bool, default=False
如果
False,它返回包含缺失值的原始数据集。如果True,缺失数据在分类变量中被替换为字符串 “Missing”,在数值变量中被替换为均值。- cabin: str, default=None
如果
None,它返回原始数据中的变量 cabin。如果为 ‘drop’,它从数据中移除该变量。如果为 ‘letter_only’,它只返回 cabin 的第一个字母,不包括数字。
示例
>>> from feature_engine.datasets import load_titanic >>> data = load_titanic(predictors_only=True, cabin="drop") >>> print(data.head()) pclass survived sex age sibsp parch fare embarked 0 1 1 female 29.0000 0 0 211.3375 S 1 1 1 male 0.9167 1 2 151.5500 S 2 1 0 female 2.0000 1 2 151.5500 S 3 1 0 male 30.0000 1 2 151.5500 S 4 1 0 female 25.0000 1 2 151.5500 S