数据集#

Feature-engine 文档中包含的用户指南和示例基于以下3个数据集:

泰坦尼克号数据集#

我们使用 openML 中可用的数据集,可以从 这里 下载。

Ames 房价数据集#

我们使用由Dean De Cock教授创建的数据集:* Dean De Cock (2011) Ames, Iowa: 作为学期末回归项目替代波士顿住房数据的替代方案,统计教育杂志,第19卷,第3期。

这些示例基于 Kaggle 上可用的数据集的副本。

原始数据和文档可以在这里找到:

信用审批数据集#

我们使用来自UCI机器学习库的信用审批数据集:

Dua, D. 和 Graff, C. (2019). UCI 机器学习库. 加州欧文: 加州大学欧文分校, 信息与计算机科学学院。

要下载数据集,请访问此 网站 并点击“crx.data”以下载数据集。

为示例准备数据:

import random
import pandas as pd
import numpy as np

# load data
data = pd.read_csv('crx.data', header=None)

# create variable names according to UCI Machine Learning information
varnames = ['A'+str(s) for s in range(1,17)]
data.columns = varnames

# replace ? by np.nan
data = data.replace('?', np.nan)

# re-cast some variables to the correct types
data['A2'] = data['A2'].astype('float')
data['A14'] = data['A14'].astype('float')

# encode target to binary
data['A16'] = data['A16'].map({'+':1, '-':0})

# save the data
data.to_csv('creditApprovalUCI.csv', index=False)