fetch_20newsgroups#
- sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False, n_retries=3, delay=1.0)#
加载20个新闻组数据集的文件名和数据(分类)。
如果需要,下载它。
类别
20
样本总数
18846
维度
1
特征
文本
更多信息请参阅 用户指南 。
- Parameters:
- data_homestr 或 path-like, 默认=None
指定数据集的下载和缓存文件夹。如果为None, 所有scikit-learn数据都存储在’~/scikit_learn_data’子文件夹中。
- subset{‘train’, ‘test’, ‘all’}, 默认=’train’
选择要加载的数据集:’train’用于训练集,’test’ 用于测试集,’all’用于两者,顺序随机。
- categoriesarray-like, dtype=str, 默认=None
如果为None(默认),加载所有类别。 如果不为None,加载类别名称列表(忽略其他类别)。
- shufflebool, 默认=True
是否对数据进行洗牌:对于假设样本独立且同分布(i.i.d.)的模型可能很重要, 例如随机梯度下降。
- random_stateint, RandomState实例或None, 默认=42
确定数据集洗牌的随机数生成。传递一个int以在多次函数调用中获得可重复的输出。 请参阅 术语表 。
- removetuple, 默认=()
可能包含(‘headers’, ‘footers’, ‘quotes’)的任何子集。这些是将被检测并从 新闻组帖子中删除的文本类型,防止分类器对元数据过度拟合。
‘headers’删除新闻组头,’footers’删除看起来像签名的帖子末尾的块,’quotes’删除 看起来像引用另一篇帖子的行。
‘headers’遵循一个精确的标准;其他过滤器并不总是正确的。
- download_if_missingbool, 默认=True
如果为False,如果数据不在本地可用,则引发OSError,而不是尝试从源站点下载数据。
- return_X_ybool, 默认=False
如果为True,返回
(data.data, data.target)
而不是Bunch对象。Added in version 0.22.
- n_retriesint, 默认=3
遇到HTTP错误时的重试次数。
Added in version 1.5.
- delayfloat, 默认=1.0
重试之间的秒数。
Added in version 1.5.
- Returns:
- bunch
Bunch
类似字典的对象,具有以下属性。
- datalist of shape (n_samples,)
要学习的数据列表。
- target: ndarray of shape (n_samples,)
目标标签。
- filenames: list of shape (n_samples,)
数据位置的路径。
- DESCR: str
数据集的完整描述。
- target_names: list of shape (n_classes,)
目标类别的名称。
- (data, target)tuple if
return_X_y=True
包含两个ndarrays的元组。第一个包含形状为 (n_samples, n_classes)的2D数组,每行表示一个样本,每列表示特征。第二个形状为 (n_samples,)的数组包含目标样本。
Added in version 0.22.
- bunch
Examples
>>> from sklearn.datasets import fetch_20newsgroups >>> cats = ['alt.atheism', 'sci.space'] >>> newsgroups_train = fetch_20newsgroups(subset='train', categories=cats) >>> list(newsgroups_train.target_names) ['alt.atheism', 'sci.space'] >>> newsgroups_train.filenames.shape (1073,) >>> newsgroups_train.target.shape (1073,) >>> newsgroups_train.target[:10] array([0, 1, 1, 1, 0, 1, 1, 0, 0, 0])