fetch_lfw_pairs#
- sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)#
加载Labeled Faces in the Wild (LFW) pairs数据集(分类)。
如果需要,下载它。
在官方的 `README.txt`_ 中,这个任务被描述为 “Restricted”任务。由于我不确定如何正确实现 “Unrestricted”变体,目前暂时不支持它。
原始图像为250 x 250像素,但默认的切片和调整大小 参数将其缩小到62 x 47。
更多信息请参阅 用户指南 。
- Parameters:
- subset{‘train’, ‘test’, ‘10_folds’}, 默认=’train’
选择要加载的数据集:’train’用于开发训练 集,’test’用于开发测试集,’10_folds’用于 官方评估集,该评估集旨在与10折交叉验证一起使用。
- data_homestr 或 path-like, 默认=None
指定另一个下载和缓存数据集的文件夹。 默认情况下,所有scikit-learn数据都存储在’~/scikit_learn_data’ 子文件夹中。
- funneledbool, 默认=True
下载并使用数据集的funneled变体。
- resizefloat, 默认=0.5
用于调整每个面部图片大小的比例。
- colorbool, 默认=False
保留3个RGB通道,而不是将它们平均为一个 单灰度通道。如果color为True,数据的形状 比color = False时多一个维度。
- slice_tuple of slice, 默认=(slice(70, 195), slice(78, 172))
提供一个自定义的2D切片(高度,宽度)以提取 jpeg文件的“有趣”部分,并避免使用背景的统计 相关性。
- download_if_missingbool, 默认=True
如果为False,如果数据不在本地可用,则引发OSError, 而不是尝试从源站点下载数据。
- n_retriesint, 默认=3
遇到HTTP错误时的重试次数。
Added in version 1.5.
- delayfloat, 默认=1.0
重试之间的秒数。
Added in version 1.5.
- Returns:
- data
Bunch
类似字典的对象,具有以下属性。
- datandarray of shape (2200, 5828). 形状取决于
subset
。 每行对应2个展开的原始大小为62 x 47像素的面部图像。 更改
slice_
、resize
或subset
参数 将改变输出的形状。- pairsndarray of shape (2200, 2, 62, 47). 形状取决于
subset
每行有2个面部图像,对应 于数据集中相同或不同的人 包含5749人。更改
slice_
、resize
或subset
参数将改变输出的形状。- targetnumpy array of shape (2200,). 形状取决于
subset
。 与每对图像关联的标签。 两个标签值分别是不同的人或同一个人。
- target_namesnumpy array of shape (2,)
解释目标数组的标签值。 0对应于“不同的人”,1对应于“同一个人”。
- DESCRstr
Labeled Faces in the Wild (LFW)数据集的描述。
- datandarray of shape (2200, 5828). 形状取决于
- data
Examples
>>> from sklearn.datasets import fetch_lfw_pairs >>> lfw_pairs_train = fetch_lfw_pairs(subset='train') >>> list(lfw_pairs_train.target_names) ['Different persons', 'Same person'] >>> lfw_pairs_train.pairs.shape (2200, 2, 62, 47) >>> lfw_pairs_train.data.shape (2200, 5828) >>> lfw_pairs_train.target.shape (2200,)