load_breast_cancer#
- sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)#
加载并返回乳腺癌威斯康星数据集(分类)。
乳腺癌数据集是一个经典的、非常简单的二分类数据集。
从以下网址下载的UCI ML乳腺癌威斯康星(诊断)数据集的副本: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
更多信息请参阅 用户指南 。
- Parameters:
- return_X_ybool, 默认=False
如果为True,返回
(数据, 目标)
而不是Bunch对象。 有关数据
和目标
对象的更多信息,请参见下文。Added in version 0.18.
- as_framebool, 默认=False
如果为True,数据是一个包含适当数据类型(数值)列的pandas DataFrame。 目标是一个pandas DataFrame或Series,取决于目标列的数量。 如果
return_X_y
为True,则 (数据
,目标
) 将是如下面所述的pandas DataFrame或Series。Added in version 0.23.
- Returns:
- 数据
Bunch
类似字典的对象,具有以下属性。
- 数据{ndarray, dataframe} 形状为 (569, 30)
数据矩阵。如果
as_frame=True
,数据
将是一个pandas DataFrame。- 目标{ndarray, Series} 形状为 (569,)
分类目标。如果
as_frame=True
,目标
将是一个pandas Series。- 特征名称ndarray 形状为 (30,)
数据集列的名称。
- 目标名称ndarray 形状为 (2,)
目标类别的名称。
- 框架DataFrame 形状为 (569, 31)
仅当
as_frame=True
时存在。包含数据
和目标
的DataFrame。Added in version 0.23.
- DESCRstr
数据集的完整描述。
- 文件名str
数据位置的路径。
Added in version 0.20.
- (数据, 目标)如果
return_X_y
为True,则为元组 默认情况下为两个ndarray的元组。第一个包含形状为 (569, 30) 的2D ndarray, 每行代表一个样本,每列代表特征。第二个形状为 (569,) 的ndarray包含目标样本。 如果
as_frame=True
,两个数组都是pandas对象,即X
是一个DataFrame,y
是一个Series。Added in version 0.18.
- 数据
Examples
假设你对样本10、50和85感兴趣,并想知道它们的类别名称。
>>> from sklearn.datasets import load_breast_cancer >>> data = load_breast_cancer() >>> data.target[[10, 50, 85]] array([0, 1, 0]) >>> list(data.target_names) ['malignant', 'benign']