Mlxtend.data - mlxtend

mlxtend version: 0.23.1

autompg_data

autompg_data()

汽车MPG数据集.

来源 : https://archive.ics.uci.edu/ml/datasets/Auto+MPG
样本数量 : 392
连续目标变量 : mpg

数据集属性:
- 1) 气缸数: 多值离散
- 2) 排量: 连续
- 3) 马力: 连续
- 4) 重量: 连续
- 5) 加速度: 连续
- 6) 生产年份: 多值离散
- 7) 产地: 多值离散
- 8) 汽车名称: 字符串 (每个实例唯一)

Returns

X, y : [n_samples, n_features], [n_targets]

X是特征矩阵,包含392行汽车样本和8列特征（删除了6行含NaN的行）. y是目标MPG值的一维数组.

Examples

使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/autompg_data/

boston_housing_data

boston_housing_data()

波士顿房价数据集.

来源:https://archive.ics.uci.edu/ml/datasets/Housing
样本数量:506

连续目标变量:MEDV
MEDV = 业主自住房屋的中位数价值（单位:千美元）

数据集属性:

- 1) CRIM      按城镇划分的每人犯罪率
- 2) ZN        住宅用地超过 25,000 平方英尺的比例
- 3) INDUS     城镇中非零售商业用地的比例
- 4) CHAS      查尔斯河虚拟变量（如果地块靠近河流则为 1;否则为 0）
- 5) NOX       一氧化氮浓度（每千万分之一）
- 6) RM        每个住宅的平均房间数
- 7) AGE       1940 年以前建造的自住单位比例
- 8) DIS       到五个波士顿就业中心的加权距离
- 9) RAD       径向高速公路的可达性指数
- 10) TAX      每 10,000 美元的全额物业税率
- 11) PTRATIO  按城镇划分的师生比例
- 12) B        1000(Bk - 0.63)^2,其中 Bk 是按城镇划分的黑人比例
- 13) LSTAT    人口中地位较低者的百分比

Returns

X, y : [n_samples, n_features], [n_class_labels]

X 是特征矩阵,包含 506 个房屋样本作为行和 13 个特征列. y 是连续目标变量 MEDV 的一维数组

Examples

使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/boston_housing_data/

iris_data

iris_data(version='uci')

鸢尾花数据集.

来源:https://archive.ics.uci.edu/ml/datasets/Iris
样本数量:150
类别标签:{0, 1, 2},分布:[50, 50, 50]
0 = setosa, 1 = versicolor, 2 = virginica.

数据集属性:

- 1) 萼片长度 [cm]
- 2) 萼片宽度 [cm]
- 3) 花瓣长度 [cm]
- 4) 花瓣宽度 [cm]

Parameters

version : string, 可选 (默认: 'uci').

使用的版本 {'uci', 'corrected'}.'uci' 加载数据集如在UCI机器学习库中存放的那样,而 'corrected' 提供与Fisher原始论文一致的版本.详见注释.

Returns

X, y : [n_samples, n_features], [n_class_labels]

X 是特征矩阵,包含150个花样本作为行, 以及4个特征列:萼片长度、萼片宽度、花瓣长度和花瓣宽度. y 是一个一维数组,包含类别标签 {0, 1, 2}

Notes

Iris数据集（最初由Edgar Anderson收集）在UCI的机器学习库中提供的版本与 R.A. Fisher [1] 原始论文中描述的Iris数据集不同. 确切地说,UCI机器学习库中的两个数据点（行号 34和37）与最初发布的Iris数据集不同.此外, Iris数据集的原始版本,可以通过 version='corrected' 加载, 与R中的版本相同.

[1] . A. Fisher (1936). "The use of multiple measurements in taxonomic
problems". Annals of Eugenics. 7 (2): 179–188

Examples

使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/iris_data/

loadlocal_mnist

loadlocal_mnist(images_path, labels_path)

读取MNIST数据集的ubyte文件.

Parameters

images_path : str

测试或训练MNIST ubyte文件的路径
labels_path : str

测试或训练MNIST类别标签文件的路径

Returns

images : [n_samples, n_pixels] numpy.array

图像的像素值.
labels : [n_samples] numpy array

目标类别标签

Examples

使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/loadlocal_mnist/

make_multiplexer_dataset

make_multiplexer_dataset(address_bits=2, sample_size=100, positive_class_ratio=0.5, shuffle=False, random_seed=None)

创建二进制n位多路复用器数据集的函数.

在mlxtend v0.9中新增

Parameters

address_bits : int (默认: 2)

一个正整数,用于确定多路复用器中的地址位数,从而确定多路复用器的n位容量和特征数量.特征数量由地址位数决定.例如,2个地址位将导致一个6位多路复用器,因此有6个特征（2 + 2^2 = 6）.如果address_bits=3,则这将导致一个11位多路复用器（2 + 2^3 = 11）,有11个特征.
sample_size : int (默认: 100)

生成的样本总数.
positive_class_ratio : float (默认: 0.5)

在sample_size大小的数据集中,具有类别标签1的样本的比例（一个介于0和1之间的浮点数）.如果positive_class_ratio=0.5（默认）,则类别0和类别1的样本比例完全平衡.
shuffle : Bool (默认: False)

是否对特征和标签进行洗牌.如果为False（默认）,样本将按排序顺序返回,首先是sample_size/2个类别标签为0的样本,然后是sample_size/2个类别标签为1的样本.
random_seed : int (默认: None)

用于生成多路复用器样本和洗牌的随机种子.

Returns

X, y : [n_samples, n_features], [n_class_labels]

X是特征矩阵,样本数量等于sample_size.特征数量由地址位数决定.例如,2个地址位将导致一个6位多路复用器,因此有6个特征（2 + 2^2 = 6）.所有特征都是二进制的（值为{0, 1}）.y是一个一维数组,包含类别标签{0, 1}.

Examples

有关使用示例,请参见 https://rasbt.github.io/mlxtend/user_guide/data/make_multiplexer_dataset

mnist_data

mnist_data()

5000个来自MNIST手写数字数据集的样本.

数据来源:https://yann.lecun.com/exdb/mnist/

Returns

X, y : [n_samples, n_features], [n_class_labels]

X是特征矩阵,包含5000个图像样本作为行, 每行由28x28像素展开成784像素特征向量组成. y包含10个唯一的类别标签0-9.

Examples

有关使用示例,请参见 https://rasbt.github.io/mlxtend/user_guide/data/mnist_data/

three_blobs_data

three_blobs_data()

用于聚类的3个2D数据块的随机数据集.

样本数量 : 150
建议的标签 : {0, 1, 2},分布: [50, 50, 50]

Returns

X, y : [n_samples, n_features], [n_cluster_labels]

X是特征矩阵,包含159个样本作为行和2个特征列. y是包含3个建议聚类标签0, 1, 2的一维数组.

Examples

使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/three_blobs_data

wine_data

wine_data()

葡萄酒数据集.

来源:https://archive.ics.uci.edu/ml/datasets/Wine
样本数量:178
类别标签:{0, 1, 2},分布:[59, 71, 48]

数据集属性:

- 1) 酒精
- 2) 苹果酸
- 3) 灰分
- 4) 灰分的碱度
- 5) 镁
- 6) 总酚
- 7) 类黄酮
- 8) 非类黄酮酚
- 9) 原花青素
- 10) 颜色强度
- 11) 色调
- 12) 稀释葡萄酒的OD280/OD315
- 13) 脯氨酸

Returns

X, y : [n_samples, n_features], [n_class_labels]

X 是特征矩阵,包含178个葡萄酒样本作为行和13个特征列. y 是一个一维数组,包含3个类别标签0, 1, 2.

Examples

使用示例请参见 https://rasbt.github.io/mlxtend/user_guide/data/wine_data