数据集#
Feature-engine 文档中包含的用户指南和示例基于以下3个数据集:
Ames 房价数据集#
我们使用由Dean De Cock教授创建的数据集:* Dean De Cock (2011) Ames, Iowa: 作为学期末回归项目替代波士顿住房数据的替代方案,统计教育杂志,第19卷,第3期。
这些示例基于 Kaggle 上可用的数据集的副本。
原始数据和文档可以在这里找到:
信用审批数据集#
我们使用来自UCI机器学习库的信用审批数据集:
Dua, D. 和 Graff, C. (2019). UCI 机器学习库. 加州欧文: 加州大学欧文分校, 信息与计算机科学学院。
要下载数据集,请访问此 网站 并点击“crx.data”以下载数据集。
为示例准备数据:
import random
import pandas as pd
import numpy as np
# load data
data = pd.read_csv('crx.data', header=None)
# create variable names according to UCI Machine Learning information
varnames = ['A'+str(s) for s in range(1,17)]
data.columns = varnames
# replace ? by np.nan
data = data.replace('?', np.nan)
# re-cast some variables to the correct types
data['A2'] = data['A2'].astype('float')
data['A14'] = data['A14'].astype('float')
# encode target to binary
data['A16'] = data['A16'].map({'+':1, '-':0})
# save the data
data.to_csv('creditApprovalUCI.csv', index=False)