数据集 (scipy.datasets)#

数据集方法#

ascent()

获取一个8位灰度位深、512 x 512的派生图像,便于在演示中使用。

face([gray])

获取一张 1024 x 768 的浣熊脸部彩色图像。

electrocardiogram()

加载一个心电图作为一维信号的示例。

实用方法#

download_all([path])

用于下载 scipy.datasets 模块所有数据集文件的实用方法。

clear_cache([datasets])

清理 scipy 数据集缓存目录。

数据集的使用#

SciPy 数据集方法可以简单地按如下方式调用:'<dataset-name>()' 这会在返回表示数据集的 numpy.ndarray 对象之前,通过网络下载数据集文件一次,并保存缓存。

请注意,不同数据集方法的返回数据结构和数据类型可能不同。有关使用方法的更详细示例,请参阅上述特定数据集方法的文档。

数据集的检索和存储方式#

SciPy 数据集文件存储在 SciPy GitHub 组织下的各个 GitHub 仓库中,遵循 'dataset-<name>' 的命名约定,例如 scipy.datasets.face 文件位于 scipy/dataset-facescipy.datasets 子模块利用并依赖于 Pooch,这是一个用于简化获取数据文件的 Python 包。Pooch 使用这些仓库在调用数据集函数时检索相应的数据集文件。

所有数据集的注册表,本质上是一个文件名与其SHA256哈希值和仓库URL的映射,由Pooch在函数调用时用于处理和验证下载。下载数据集一次后,文件将保存在系统缓存目录下的 'scipy-data' 中。

数据集缓存位置在不同平台上可能有所不同。

对于 macOS:

'~/Library/Caches/scipy-data'

对于Linux和其他类Unix平台:

'~/.cache/scipy-data'  # or the value of the XDG_CACHE_HOME env var, if defined

对于 Windows:

'C:\Users\<user>\AppData\Local\<AppAuthor>\scipy-data\Cache'

在由于各种安全原因而网络连接受限的环境中,或在无持续互联网连接的系统上,可以通过将数据集仓库的内容放置在上述缓存目录中,手动加载数据集的缓存,以避免在没有互联网连接时获取数据集错误。