load_breast_cancer#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)#

加载并返回乳腺癌威斯康星数据集(分类)。

乳腺癌数据集是一个经典的、非常简单的二分类数据集。

从以下网址下载的UCI ML乳腺癌威斯康星(诊断)数据集的副本: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

更多信息请参阅 用户指南

Parameters:
return_X_ybool, 默认=False

如果为True,返回 (数据, 目标) 而不是Bunch对象。 有关 数据目标 对象的更多信息,请参见下文。

Added in version 0.18.

as_framebool, 默认=False

如果为True,数据是一个包含适当数据类型(数值)列的pandas DataFrame。 目标是一个pandas DataFrame或Series,取决于目标列的数量。 如果 return_X_y 为True,则 ( 数据 , 目标 ) 将是如下面所述的pandas DataFrame或Series。

Added in version 0.23.

Returns:
数据Bunch

类似字典的对象,具有以下属性。

数据{ndarray, dataframe} 形状为 (569, 30)

数据矩阵。如果 as_frame=True数据 将是一个pandas DataFrame。

目标{ndarray, Series} 形状为 (569,)

分类目标。如果 as_frame=True目标 将是一个pandas Series。

特征名称ndarray 形状为 (30,)

数据集列的名称。

目标名称ndarray 形状为 (2,)

目标类别的名称。

框架DataFrame 形状为 (569, 31)

仅当 as_frame=True 时存在。包含 数据目标 的DataFrame。

Added in version 0.23.

DESCRstr

数据集的完整描述。

文件名str

数据位置的路径。

Added in version 0.20.

(数据, 目标)如果 return_X_y 为True,则为元组

默认情况下为两个ndarray的元组。第一个包含形状为 (569, 30) 的2D ndarray, 每行代表一个样本,每列代表特征。第二个形状为 (569,) 的ndarray包含目标样本。 如果 as_frame=True ,两个数组都是pandas对象,即 X 是一个DataFrame, y 是一个Series。

Added in version 0.18.

Examples

假设你对样本10、50和85感兴趣,并想知道它们的类别名称。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
['malignant', 'benign']