fetch_kddcup99#
- sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)#
加载kddcup99数据集(分类)。
如果需要,下载它。
Classes
23
Samples total
4898431
Dimensionality
41
Features
discrete (int) or continuous (float)
更多信息请参阅 用户指南 。
Added in version 0.18.
- Parameters:
- subset{‘SA’, ‘SF’, ‘http’, ‘smtp’}, default=None
返回kddcup 99的相应经典子集。 如果为None,则返回整个kddcup 99数据集。
- data_homestr or path-like, default=None
指定数据集的另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在’~/scikit_learn_data’子文件夹中。
Added in version 0.19.
- shufflebool, default=False
是否打乱数据集。
- random_stateint, RandomState instance or None, default=None
确定数据集洗牌的随机数生成以及在
subset='SA'
时异常样本的选择。传递一个int以在多次函数调用中获得可重复的输出。 请参阅 术语表 。- percent10bool, default=True
是否仅加载数据的10%。
- download_if_missingbool, default=True
如果为False,如果数据在本地不可用,则引发OSError,而不是尝试从源站点下载数据。
- return_X_ybool, default=False
如果为True,返回
(data, target)
而不是Bunch对象。有关data
和target
对象的更多信息,请参见下文。Added in version 0.20.
- as_framebool, default=False
如果为
True
,为Bunch
返回对象中的data
和target
对象返回一个pandas DataFrame;Bunch
返回对象还将有一个frame
成员。Added in version 0.24.
- n_retriesint, default=3
遇到HTTP错误时的重试次数。
Added in version 1.5.
- delayfloat, default=1.0
重试之间的秒数。
Added in version 1.5.
- Returns:
- data
Bunch
类似字典的对象,具有以下属性。
- data{ndarray, dataframe} of shape (494021, 41)
用于学习的数据矩阵。如果
as_frame=True
,data
将是一个pandas DataFrame。- target{ndarray, series} of shape (494021,)
每个样本的回归目标。如果
as_frame=True
,target
将是一个pandas Series。- framedataframe of shape (494021, 42)
仅在
as_frame=True
时存在。包含data
和target
。- DESCRstr
数据集的完整描述。
- feature_nameslist
数据集列的名称
- target_names: list
目标列的名称
- (data, target)tuple if
return_X_y
is True 包含两个ndarray的元组。第一个包含一个形状为(n_samples, n_features)的2D数组,每行代表一个样本,每列代表特征。第二个ndarray形状为(n_samples,),包含目标样本。
Added in version 0.20.
- data