mlxtend version: 0.23.1
autompg_data
autompg_data()
汽车MPG数据集.
-
来源
: https://archive.ics.uci.edu/ml/datasets/Auto+MPG -
样本数量
: 392 -
连续目标变量
: mpg数据集属性:
- 1) 气缸数: 多值离散
- 2) 排量: 连续
- 3) 马力: 连续
- 4) 重量: 连续
- 5) 加速度: 连续
- 6) 生产年份: 多值离散
- 7) 产地: 多值离散
- 8) 汽车名称: 字符串 (每个实例唯一)
Returns
-
X, y
: [n_samples, n_features], [n_targets]X是特征矩阵,包含392行汽车样本和8列特征(删除了6行含NaN的行). y是目标MPG值的一维数组.
Examples
使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/autompg_data/
boston_housing_data
boston_housing_data()
波士顿房价数据集.
来源:https://archive.ics.uci.edu/ml/datasets/Housing
样本数量:506
连续目标变量:MEDV
MEDV = 业主自住房屋的中位数价值(单位:千美元)
数据集属性:
- 1) CRIM 按城镇划分的每人犯罪率
- 2) ZN 住宅用地超过 25,000 平方英尺的比例
- 3) INDUS 城镇中非零售商业用地的比例
- 4) CHAS 查尔斯河虚拟变量(如果地块靠近河流则为 1;否则为 0)
- 5) NOX 一氧化氮浓度(每千万分之一)
- 6) RM 每个住宅的平均房间数
- 7) AGE 1940 年以前建造的自住单位比例
- 8) DIS 到五个波士顿就业中心的加权距离
- 9) RAD 径向高速公路的可达性指数
- 10) TAX 每 10,000 美元的全额物业税率
- 11) PTRATIO 按城镇划分的师生比例
- 12) B 1000(Bk - 0.63)^2,其中 Bk 是按城镇划分的黑人比例
- 13) LSTAT 人口中地位较低者的百分比
Returns
-
X, y
: [n_samples, n_features], [n_class_labels]X 是特征矩阵,包含 506 个房屋样本作为行和 13 个特征列. y 是连续目标变量 MEDV 的一维数组
Examples
使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/boston_housing_data/
iris_data
iris_data(version='uci')
鸢尾花数据集.
来源:https://archive.ics.uci.edu/ml/datasets/Iris
样本数量:150
类别标签:{0, 1, 2},分布:[50, 50, 50]
0 = setosa, 1 = versicolor, 2 = virginica.
数据集属性:
- 1) 萼片长度 [cm]
- 2) 萼片宽度 [cm]
- 3) 花瓣长度 [cm]
- 4) 花瓣宽度 [cm]
Parameters
-
version
: string, 可选 (默认: 'uci').使用的版本 {'uci', 'corrected'}.'uci' 加载数据集 如在UCI机器学习库中存放的那样,而 'corrected' 提供与Fisher原始论文一致的版本.详见注释.
Returns
-
X, y
: [n_samples, n_features], [n_class_labels]X 是特征矩阵,包含150个花样本作为行, 以及4个特征列:萼片长度、萼片宽度、 花瓣长度和花瓣宽度. y 是一个一维数组,包含类别标签 {0, 1, 2}
Notes
Iris数据集(最初由Edgar Anderson收集)
在UCI的机器学习库中提供的版本与
R.A. Fisher [1] 原始论文中描述的Iris数据集不同.
确切地说,UCI机器学习库中的两个数据点(行号
34和37)与最初发布的Iris数据集不同.此外,
Iris数据集的原始版本,可以通过 version='corrected'
加载,
与R中的版本相同.
[1] . A. Fisher (1936). "The use of multiple measurements in taxonomic
problems". Annals of Eugenics. 7 (2): 179–188
Examples
使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/iris_data/
loadlocal_mnist
loadlocal_mnist(images_path, labels_path)
读取MNIST数据集的ubyte文件.
Parameters
-
images_path
: str测试或训练MNIST ubyte文件的路径
-
labels_path
: str测试或训练MNIST类别标签文件的路径
Returns
-
images
: [n_samples, n_pixels] numpy.array图像的像素值.
-
labels
: [n_samples] numpy array目标类别标签
Examples
使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/loadlocal_mnist/
make_multiplexer_dataset
make_multiplexer_dataset(address_bits=2, sample_size=100, positive_class_ratio=0.5, shuffle=False, random_seed=None)
创建二进制n位多路复用器数据集的函数.
在mlxtend v0.9中新增
Parameters
-
address_bits
: int (默认: 2)一个正整数,用于确定多路复用器中的地址位数,从而确定多路复用器的n位容量和特征数量.特征数量由地址位数决定.例如,2个地址位将导致一个6位多路复用器,因此有6个特征(2 + 2^2 = 6).如果
address_bits=3
,则这将导致一个11位多路复用器(2 + 2^3 = 11),有11个特征. -
sample_size
: int (默认: 100)生成的样本总数.
-
positive_class_ratio
: float (默认: 0.5)在
sample_size
大小的数据集中,具有类别标签1的样本的比例(一个介于0和1之间的浮点数).如果positive_class_ratio=0.5
(默认),则类别0和类别1的样本比例完全平衡. -
shuffle
: Bool (默认: False)是否对特征和标签进行洗牌.如果为
False
(默认),样本将按排序顺序返回,首先是sample_size
/2个类别标签为0的样本,然后是sample_size
/2个类别标签为1的样本. -
random_seed
: int (默认: None)用于生成多路复用器样本和洗牌的随机种子.
Returns
-
X, y
: [n_samples, n_features], [n_class_labels]X是特征矩阵,样本数量等于
sample_size
.特征数量由地址位数决定.例如,2个地址位将导致一个6位多路复用器,因此有6个特征(2 + 2^2 = 6).所有特征都是二进制的(值为{0, 1}).y是一个一维数组,包含类别标签{0, 1}.
Examples
有关使用示例,请参见 https://rasbt.github.io/mlxtend/user_guide/data/make_multiplexer_dataset
mnist_data
mnist_data()
5000个来自MNIST手写数字数据集的样本.
数据来源:https://yann.lecun.com/exdb/mnist/
Returns
-
X, y
: [n_samples, n_features], [n_class_labels]X是特征矩阵,包含5000个图像样本作为行, 每行由28x28像素展开成784像素特征向量组成. y包含10个唯一的类别标签0-9.
Examples
有关使用示例,请参见 https://rasbt.github.io/mlxtend/user_guide/data/mnist_data/
three_blobs_data
three_blobs_data()
用于聚类的3个2D数据块的随机数据集.
-
样本数量
: 150 -
建议的标签
: {0, 1, 2},分布: [50, 50, 50]
Returns
-
X, y
: [n_samples, n_features], [n_cluster_labels]X是特征矩阵,包含159个样本作为行和2个特征列. y是包含3个建议聚类标签0, 1, 2的一维数组.
Examples
使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/three_blobs_data
wine_data
wine_data()
葡萄酒数据集.
来源:https://archive.ics.uci.edu/ml/datasets/Wine
样本数量:178
类别标签:{0, 1, 2},分布:[59, 71, 48]
数据集属性:
- 1) 酒精
- 2) 苹果酸
- 3) 灰分
- 4) 灰分的碱度
- 5) 镁
- 6) 总酚
- 7) 类黄酮
- 8) 非类黄酮酚
- 9) 原花青素
- 10) 颜色强度
- 11) 色调
- 12) 稀释葡萄酒的OD280/OD315
- 13) 脯氨酸
Returns
-
X, y
: [n_samples, n_features], [n_class_labels]X 是特征矩阵,包含178个葡萄酒样本作为行和13个特征列. y 是一个一维数组,包含3个类别标签0, 1, 2.
Examples
使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/wine_data