fetch_rcv1#
- sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)#
加载RCV1多标签数据集(分类)。
如果需要,下载它。
版本:RCV1-v2,向量,完整集,主题多标签。
更多信息请参阅 用户指南 。
Added in version 0.17.
- Parameters:
- data_homestr 或 path-like, default=None
指定数据集的另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在’~/scikit_learn_data’子文件夹中。
- subset{‘train’, ‘test’, ‘all’}, default=’all’
选择要加载的数据集:’train’用于训练集(23149个样本),’test’用于测试集(781265个样本), ‘all’用于两者,如果shuffle为False,则训练样本在前。这遵循官方的LYRL2004时间顺序分割。
- download_if_missingbool, default=True
如果为False,如果数据不在本地,则引发OSError,而不是尝试从源站点下载数据。
- random_stateint, RandomState实例或None, default=None
确定数据集洗牌的随机数生成。为跨多次函数调用可重现输出传递一个int。 请参阅 术语 。
- shufflebool, default=False
是否洗牌数据集。
- return_X_ybool, default=False
如果为True,返回
(dataset.data, dataset.target)
而不是Bunch对象。有关dataset.data
和dataset.target
对象的更多信息,请参见下文。Added in version 0.20.
- n_retriesint, default=3
遇到HTTP错误时的重试次数。
Added in version 1.5.
- delayfloat, default=1.0
重试之间的秒数。
Added in version 1.5.
- Returns:
- dataset
Bunch
类似字典的对象。仅当
return_X_y
为False时返回。dataset
具有以下属性:- data形状为(804414, 47236)的稀疏矩阵,dtype=np.float64
该数组有0.16%的非零值。将是CSR格式。
- target形状为(804414, 103)的稀疏矩阵,dtype=np.uint8
每个样本在其类别中有一个值1,在其他类别中为0。 该数组有3.15%的非零值。将是CSR格式。
- sample_id形状为(804414,)的ndarray,dtype=np.uint32,
每个样本的识别号,按dataset.data中的顺序排列。
- target_names形状为(103,)的ndarray,dtype=object
每个目标的名称(RCV1主题),按dataset.target中的顺序排列。
- DESCRstr
RCV1数据集的描述。
- (data, target)tuple
由
dataset.data
和dataset.target
组成的元组,如上所述。仅当return_X_y
为True时返回。Added in version 0.20.
- dataset
Examples
>>> from sklearn.datasets import fetch_rcv1 >>> rcv1 = fetch_rcv1() >>> rcv1.data.shape (804414, 47236) >>> rcv1.target.shape (804414, 103)