数据集

类 Dataset()

不要直接使用！请改用 Dataset.create(…) 或 Dataset.get(…)。

添加外部文件

add_external_files(source_url, wildcard=None, dataset_path=None, recursive=True, verbose=False, max_workers=None)

将外部文件或文件夹添加到当前数据集中。外部文件链接可以来自云存储（s3://, gs://, azure://）、本地/网络存储（file://）或http(s)//文件。计算每个文件的大小并与父文件进行比较。

一些示例：

将file.jpg添加到数据集中。当检索整个数据集的副本时（参见dataset.get_local_copy()）。此文件将位于“./my_dataset/new_folder/file.jpg”。 add_external_files(source_url=”s3://my_bucket/stuff/file.jpg”, dataset_path=”/my_dataset/new_folder/”)
将位于名为“my_bucket”的S3存储桶中的所有jpg文件添加到数据集中。 add_external_files(source_url=”s3://my/bucket/”, wildcard = “*.jpg”, dataset_path=”/my_dataset/new_folder/”)
将“remote_folder”的全部内容添加到数据集中。 add_external_files(source_url=”s3://bucket/remote_folder/”, dataset_path=”/my_dataset/new_folder/”)
将本地文件“/folder/local_file.jpg”添加到数据集中。 add_external_files(source_url=”file:///folder/local_file.jpg”, dataset_path=”/my_dataset/new_folder/”)
参数
- source_url (Union[str, Sequence[str]]) – 源URL链接（例如 s3://bucket/folder/path）或要添加到数据集中的链接列表/元组（例如 [s3://bucket/folder/file.csv, http://web.com/file.txt]）
- wildcard (Union[str, Sequence[str], None]) – 仅添加特定的一组文件。通配符匹配，可以是单个字符串或通配符列表。
- dataset_path (Union[str, Sequence[str], None]) – 文件将被下载到数据集中的位置，或位置列表/元组（如果是列表/元组，则必须与 source_url 的长度相同）。例如：对于 source_url=’s3://bucket/remote_folder/image.jpg’ 和 dataset_path=’s3_files’， ‘image.jpg’ 将被下载到 ‘s3_files/image.jpg’（相对于数据集的路径）。对于 source_url=[‘s3://bucket/remote_folder/image.jpg’, ‘s3://bucket/remote_folder/image2.jpg’] 和 dataset_path=[‘s3_files’, ‘s3_files_2’]，‘image.jpg’ 将被下载到 ‘s3_files/image.jpg’，而 ‘image2.jpg’ 将被下载到 ‘s3_files_2/image2.jpg’（相对于数据集的路径）。
- recursive (bool) – 如果为True，则递归匹配所有通配符文件
- verbose (bool) – 如果为True，则打印到控制台添加/修改的文件
- max_workers (Optional[int]) – 用于添加外部文件的线程数。当source_url是一个序列时非常有用。默认为逻辑核心数
返回类型

int
返回

添加的文件链接数量

添加文件

add_files(路径, 通配符=无, 本地基础文件夹=无, 数据集路径=无, 递归=真, 详细=假, 最大工作线程数=无)

将文件夹添加到当前数据集中。计算文件哈希值，并与父级进行比较，标记需要上传的文件

参数
- path (Union [ str *, * Path *, * _Path ] ) – 向数据集中添加一个文件夹/文件
- wildcard (可选 [ 联合 [ str *, * 序列 [ str ] ] ] ) – 仅添加特定的一组文件。通配符匹配，可以是单个字符串或通配符列表。
- local_base_folder (可选 [ str ] ) – 文件将根据它们相对于 local_base_folder 的相对路径进行定位
- dataset_path (可选 [ str ] ) – 数据集中文件夹/文件应位于的位置
- recursive (bool ) – 如果为True，则递归匹配所有通配符文件
- verbose (bool ) – 如果为True，则打印到控制台添加/修改的文件
- max_workers (可选 [ int ] ) – 用于添加文件的线程数。默认为逻辑核心数
返回类型

()
返回

添加的文件数量

添加标签

添加标签(tags)

向此数据集添加标签。旧标签不会被删除。当远程执行任务（实验）时，此方法无效。

参数

tags (Union[Sequence[str], str]) – 描述要添加的任务的标签列表。
返回类型

None

数据集创建

classmethod create(dataset_name=None, dataset_project=None, dataset_tags=None, parent_datasets=None, use_current_task=False, dataset_version=None, output_uri=None, description=None)

创建一个新的数据集。支持多个数据集父级。父级数据集的合并是基于顺序进行的，其中每个父级可以覆盖前一个父级中的重叠文件。

参数
- dataset_name (Optional[str]) – 命名新数据集
- dataset_project (Optional[str]) – 包含数据集的项目。如果未指定，则从父数据集中推断项目名称
- dataset_tags (Optional[Sequence[str]]) – 可选的，附加到新创建的数据集的标签（字符串）列表
- parent_datasets (Optional[Sequence[Union[str, Dataset]]]) – 通过添加/删除文件来扩展父数据集
- use_current_task (bool) – 默认为 False，会创建一个新的数据集任务。如果为 True，数据集将在当前任务上创建。
- dataset_version (Optional[str]) – 新数据集的版本。如果未设置，尝试找到给定 dataset_name 和 dataset_project 的最新版本并自动递增。
- output_uri (Optional[str]) – 上传数据集文件的位置，包括预览样本。
  
  以下是支持的output_uri位置的示例值：
  - 一个共享文件夹：/mnt/share/folder
  - S3: s3://bucket/folder
  - Google 云存储: gs://bucket-name/folder
  - Azure 存储: azure://company.blob.core.windows.net/folder/
  - 默认文件服务器：无
- 描述 (Optional[str]) – 数据集的描述
返回类型

ForwardRef
返回

新创建的Dataset对象

数据集.删除

classmethod delete(dataset_id=None, dataset_project=None, dataset_name=None, force=False, dataset_version=None, entire_dataset=False, shallow_search=False, delete_files=True, delete_external_files=False)

删除数据集。如果多个数据集匹配参数，则引发异常，或者如果 entire_dataset 为 True 且 force 为 True，则移动整个数据集。

参数
- dataset_id – 要删除的数据集的ID
- dataset_project – 要删除的数据集所属的项目
- dataset_name – 要删除的数据集的名称
- force – 如果为True，即使数据集正在使用中也会删除。当entire_dataset被设置时，也必须设置为True。
- dataset_version – 要删除的数据集的版本
- entire_dataset – 如果为True，删除所有匹配给定dataset_project、dataset_name、dataset_version的数据集。注意，如果此参数为True，则force必须为True
- shallow_search – 如果为True，仅搜索前500个结果（第一页）
- delete_files – 删除数据集中的所有本地文件（来自ClearML文件服务器），以及所有与数据集相关的工件。
- delete_external_files – 删除数据集中的所有外部文件（从其外部存储中）
返回类型

()

file_entries_dict

属性 file_entries_dict

请注意，此调用返回一个内部表示，请勿修改！ :rtype: Mapping[str, FileEntry] :return: 以相对文件路径为键，FileEntry为值的字典

finalize

finalize(verbose=False, raise_on_error=True, auto_upload=False)

完成数据集发布数据集任务。必须先调用上传以确认没有待处理的上传。如果确实需要上传文件，则会抛出异常（或返回False）

参数
- verbose (bool) – 如果为True，打印详细的进度报告
- raise_on_error (bool) – 如果为True，当数据集最终化失败时抛出异常
- auto_upload (bool) – 如果尚未调用，则自动上传数据集，将上传到默认位置。
返回类型

bool

数据集.获取

**类方法 get(dataset_id=None, dataset_project=None, dataset_name=None, dataset_tags=None, only_completed=False, only_published=False, include_archived=False, auto_create=False, writable_copy=False, dataset_version=None, alias=None, overridable=False, shallow_search=False, kwargs)

获取特定的数据集。如果找到多个数据集，则返回具有最高语义版本的数据集。如果未找到语义版本，则返回最近更新的数据集。如果未找到数据集且未设置auto_create=True标志，此函数将引发异常。

参数
- dataset_id (Optional[str]) – 请求的数据集ID
- dataset_project (Optional[str]) – 请求的数据集项目名称
- dataset_name (Optional[str]) – 请求的数据集名称
- dataset_tags (Optional[Sequence[str]]) – 请求的数据集标签（标签字符串列表）
- only_completed (bool) – 仅当请求的数据集已完成或发布时返回
- only_published (bool) – 仅当请求的数据集已发布时返回
- include_archived (bool) – 包括已归档的任务和数据集
- auto_create (bool) – 如果数据集尚不存在，则创建一个新的数据集
- writable_copy (bool) – 获取一个新创建的可变数据集，以当前数据集作为其父级，因此可以向实例中添加新文件。
- dataset_version (Optional[str]) – 请求的数据集版本
- alias (Optional[str]) – 数据集的别名。如果设置了，'alias : dataset ID' 键值对将会设置在超参数部分的 'Datasets' 下。
- 可覆盖的 (bool) – 如果为True，允许在超参数部分使用给定的别名覆盖数据集ID。当希望在远程运行任务时更改使用的数据集时非常有用。如果未设置别名参数，则此参数无效。
- shallow_search (bool) – 如果为True，仅搜索前500个结果（第一页）
返回类型

ForwardRef
返回

数据集对象

获取默认存储

get_default_storage()

返回数据集的默认存储位置

返回类型

Optional[str]
返回

默认存储位置的URL

获取依赖关系图

get_dependency_graph()

返回数据集依赖关系的DAG（所有先前数据集版本及其父级）

示例：

{
    'current_dataset_id': ['parent_1_id', 'parent_2_id'],
    'parent_2_id': ['parent_1_id'],
    'parent_1_id': [],
}

返回

表示当前数据集的家谱DAG图的字典

获取本地副本

get_local_copy(use_soft_links=None, part=None, num_parts=None, raise_on_error=True, max_workers=None)

返回一个包含整个数据集的只读（不可变）本地副本的基础文件夹下载并复制/软链接所有父数据集版本的文件。数据集需要被最终化

参数
- use_soft_links (Optional[bool]) – 如果为True，则使用软链接，Windows上默认为False，Posix系统上默认为True
- 部分 (Optional[int]) – 可选，如果提供，则仅下载数据集的选定部分（索引）。第一个部分的编号为0，最后一个部分为num_parts-1。请注意，如果未提供num_parts，则部分数量将等于块的总数（即从指定数据集包括所有父数据集的所有块的总和）。此参数传递给父数据集以及隐式的num_parts，允许用户获取整个数据集的部分副本，用于多节点/步骤处理。
- num_parts (Optional[int]) – 可选，如果指定，将存储的块数标准化为请求的部分数。请注意，每个部分实际使用的块数会向下取整。示例：假设此数据集（包括父数据集）总共有8个块，且num_parts=5，每个部分使用的块索引将为： part=0 -> chunks[0,5], part=1 -> chunks[1,6], part=2 -> chunks[2,7], part=3 -> chunks[3, ]
- raise_on_error (bool) – 如果为True，在任何文件上数据集合并失败时抛出异常
- max_workers (Optional[int]) – 获取数据集副本时要生成的线程数。默认为逻辑核心数。
返回类型

str
返回

整个数据集的基础文件夹

获取日志记录器

get_logger()

返回一个用于数据集的Logger对象，允许用户在数据集本身上报告统计指标和调试样本

返回类型

Logger
返回

日志记录器对象

获取元数据

get_metadata(metadata_name='metadata')

以原始格式获取附加的元数据。如果未找到，将返回None。

返回类型

可选[numpy.array, pd.DataFrame, dict, str, bool]
参数

metadata_name (str ) –

get_mutable_local_copy

get_mutable_local_copy(target_folder, overwrite=False, part=None, num_parts=None, raise_on_error=True, max_workers=None)

返回一个包含整个数据集可写（可变）本地副本的基础文件夹。从所有父数据集版本下载并复制/软链接文件。请注意，该方法最初将本地副本下载到缓存目录中，然后将其移动到target_folder。确保默认缓存目录有足够的磁盘空间。

参数
- target_folder (Union[Path, Path, str]) – 可写副本的目标文件夹
- overwrite (bool) – 如果为True，则在创建副本之前递归删除目标文件夹。如果为False（默认值）且目标文件夹包含文件，则引发异常或返回None
- 部分 (Optional[int]) – 可选，如果提供，则仅下载数据集的选定部分（索引）。第一个部分的编号为0，最后一个部分为num_parts-1。请注意，如果未提供num_parts，则部分数量将等于块的总数（即从指定数据集包括所有父数据集的所有块的总和）。此参数传递给父数据集以及隐式的num_parts，允许用户获取整个数据集的部分副本，用于多节点/步骤处理。
- num_parts (Optional[int]) – 可选，如果指定，将存储的块数标准化为请求的部分数。请注意，每个部分实际使用的块数会向下取整。示例：假设此数据集（包括父数据集）总共有8个块，且num_parts=5，每个部分使用的块索引将为： part=0 -> chunks[0,5], part=1 -> chunks[1,6], part=2 -> chunks[2,7], part=3 -> chunks[3, ]
- raise_on_error (bool) – 如果为True，在任何文件上数据集合并失败时抛出异常
- max_workers (Optional[int]) – 获取数据集副本时要生成的线程数。默认为逻辑核心数。
返回类型

Optional[str]
返回

包含整个数据集的目标文件夹

get_num_chunks

get_num_chunks(include_parents=True)

返回存储在此数据集上的块数（这并不意味着父版本存储的块数）

参数

include_parents (bool) – 如果为 True（默认），返回此版本和所有父版本的总块数。如果为 False，仅返回我们在此特定版本上存储的块数。
返回类型

int
返回

数据集中存储的块数。

获取离线模式文件夹

get_offline_mode_folder()

返回离线会话中所有数据集数据存储的文件夹。

返回类型

Optional[Path]
返回

路径对象，本地文件夹

数据集.导入离线会话

classmethod import_offline_session(session_folder_zip, upload=True, finalize=False)

导入数据集的离线会话。包括仓库详情、已安装的包、工件、日志、指标和调试样本。

参数
- session_folder_zip (str) – 包含会话的文件夹路径，或会话文件夹的压缩文件。
- upload (bool) – 如果为True，则上传数据集的数据
- finalize (bool) – 如果为True，则完成数据集
返回类型

str
返回

导入的数据集的ID

is_dirty

is_dirty()

如果数据集有待上传的内容（即我们无法完成它），则返回True

返回类型

bool
返回

返回 True 表示数据集有待上传的文件，调用 'upload' 开始上传过程。

is_final

is_final()

如果数据集已最终确定且无法再更改，则返回True。

返回类型

bool
返回

如果数据集是最终的，则为True

数据集.离线状态

classmethod is_offline()

返回离线模式状态，如果处于离线模式，则不启用与后端的通信。

返回类型

bool
返回

布尔离线模式状态

link_entries_dict

属性 link_entries_dict

请注意，此调用返回一个内部表示，请勿修改！

返回类型

Mapping[str, LinkEntry]
返回

字典，以相对文件路径为键，LinkEntry为值

已添加文件列表

list_added_files(dataset_id=None)

返回与特定dataset_id比较时添加的文件列表

参数

dataset_id (Optional[str]) – 数据集ID (str) 用于比较，如果未提供，则与父数据集进行比较
返回类型

List[str]
返回

相对路径的文件列表（在调用get_local_copy()之前，文件可能无法在本地获取）

数据集.列出数据集

classmethod list_datasets(dataset_project=None, partial_name=None, tags=None, ids=None, only_completed=True, recursive_project_search=True, include_archived=True)

查询系统中的数据集列表

参数
- dataset_project (Optional[str]) – 指定数据集项目名称
- partial_name (Optional[str]) – 指定数据集名称的部分匹配。此方法支持用于名称匹配的正则表达式（如果您希望匹配特殊字符并避免任何正则表达式行为，请使用 re.escape()）
- 标签 (Optional[Sequence[str]]) – 指定用户标签
- ids (Optional[Sequence[str]]) – 基于ID列表列出特定数据集
- only_completed (bool) – 如果为False，返回仍在进行中的数据集（上传/编辑等）
- recursive_project_search (bool) – 如果为True并且设置了dataset_project参数，则也会在子项目中搜索。如果为False，则不在子项目中搜索（除了特殊的.datasets子项目）
- include_archived (bool) – 如果为True，则包括已归档的数据集。
返回类型

List[dict]
返回

包含数据集信息的字典列表示例：[{'name': name, 'project': project name, 'id': dataset_id, 'created': date_created},]

列出文件

list_files(dataset_path=None, recursive=True, dataset_id=None)

返回当前数据集中的文件列表如果提供了dataset_id，则返回自指定dataset_id以来未更改的文件列表

参数
- dataset_path (Optional[str]) – 仅匹配与 dataset_path 匹配的文件（包括通配符）。示例：'folder/sub/*.json'
- recursive (bool) – 如果为True（默认），则递归匹配dataset_path
- dataset_id (Optional[str]) – 根据包含文件最新版本的数据集ID过滤列表。默认值：无，不根据父数据集过滤文件。
返回类型

List[str]
返回

相对路径的文件列表（在调用get_local_copy()之前，文件可能无法在本地获取）

列出修改的文件

list_modified_files(dataset_id=None)

返回与特定dataset_id比较时修改的文件列表

参数

dataset_id (Optional[str]) – 数据集ID (str) 用于比较，如果未提供，则与父数据集进行比较
返回类型

List[str]
返回

相对路径的文件列表（在调用get_local_copy()之前，文件可能无法在本地获取）

列出已删除的文件

list_removed_files(dataset_id=None)

返回与特定dataset_id比较时删除的文件列表

参数

dataset_id (Optional[str]) – 数据集ID (str) 用于比较，如果未提供，则与父数据集进行比较
返回类型

List[str]
返回

相对路径的文件列表（在调用get_local_copy()之前，文件可能无法在本地获取）

数据集.移动到项目

classmethod move_to_project(new_dataset_project, dataset_project, dataset_name)

将数据集移动到另一个项目。

参数
- new_dataset_project – 将数据集移动到的新项目
- dataset_project – 要移动到新项目的数据集的项目
- dataset_name – 要移动到新项目的数据集名称
返回类型

()

发布

publish(raise_on_error=True)

发布数据集如果数据集未最终确定，抛出异常

参数

raise_on_error (bool) – 如果为True，数据集发布失败时抛出异常
返回类型

bool

remove_files

remove_files(dataset_path=None, recursive=True, verbose=False)

从当前数据集中移除文件

参数
- dataset_path (Optional[str]) – 从数据集中删除文件。路径始终相对于数据集（例如 'folder/file.bin'）。外部文件也可以通过其链接删除（例如 's3://bucket/file'）
- recursive (bool) – 如果为True，则递归匹配所有通配符文件
- verbose (bool) – 如果为True，打印到控制台已删除的文件
返回类型

int
返回

删除的文件数量

数据集.重命名

classmethod rename(new_dataset_name, dataset_project, dataset_name)

重命名数据集。

参数
- new_dataset_name – 要重命名的数据集的新名称
- dataset_project – 数据集所属的项目，这些数据集将被重命名
- dataset_name – 数据集的名称（在重命名之前）
返回类型

()

设置描述

设置描述(description)

设置数据集的描述

参数

描述 (str ) – 要设置的描述
返回类型

()

set_metadata

set_metadata(metadata, metadata_name='metadata', ui_visible=True)

将用户定义的元数据附加到数据集。检查Task.upload_artifact以了解支持的类型。如果类型是Pandas数据框，可以选择在UI中将其显示为表格。

返回类型

()
参数
- metadata (Union [ numpy.array *, * pd.DataFrame *, * Dict [ str *, * Any ] ] ) –
- metadata_name (str ) –
- ui_visible (bool ) –

数据集.设置离线

classmethod set_offline(offline_mode=False)

设置离线模式，所有数据和日志将存储在本地文件夹中，以便稍后传输

参数

offline_mode (bool) – 如果为True，则开启离线模式，并且不启用与后端的通信。
返回类型

None

数据集压缩

classmethod squash(dataset_name, dataset_ids=None, dataset_project_name_pairs=None, output_url=None)

从数据集版本的压缩集合中生成一个新的数据集。如果给出单个版本，它将压缩到根目录（即创建单个独立版本）如果给出了一组版本，它将把这些版本的差异压缩成一个单一版本

参数
- dataset_name (str ) – 新生成的压缩数据集的目标名称
- dataset_ids (可选 [ 序列 [ 联合 [ str *, * 数据集 ] ] ] ) – 要压缩的数据集ID（或对象）列表。注意顺序很重要。版本从第一个到最后一个合并。
- dataset_project_name_pairs (可选 [ 序列 [ ( str *, * str ) ] ] ) – 要压缩的 (project_name, dataset_name) 对列表。注意顺序很重要。版本从第一个到最后一个合并。
- output_url (可选 [ str ] ) – 压缩数据集的目标存储位置（默认：文件服务器）示例：s3://bucket/data, gs://bucket/data , azure://bucket/data , /mnt/share/data
返回类型

“数据集”
返回

新创建的数据集对象。

同步文件夹

sync_folder(local_path, dataset_path=None, verbose=False)

将数据集与本地文件夹同步。数据集从relative_base_folder（默认：数据集根目录）及其更深层次的目录与指定的本地路径同步。请注意，如果在同步时识别出远程文件已被修改，它将被添加为FileEntry，准备上传到ClearML服务器。此版本的文件被视为“较新”，在调用Dataset.get_local_copy()时，将下载此版本而不是存储在其远程地址的版本。

参数
- local_path (Union [ Path *, * _Path *, * str ] ) – 要同步的本地文件夹（假设所有文件和递归）
- dataset_path (Union [ Path *, * _Path *, * str ] ) – 要同步的目标数据集路径（默认为数据集的根目录）
- verbose (bool ) – 如果为True，则在控制台打印添加/修改/删除的文件
返回类型

(int, int, int)
返回

删除的文件数量，修改/添加的文件数量

更新更改的文件

update_changed_files(num_files_added=None, num_files_modified=None, num_files_removed=None)

更新内部状态，跟踪添加、修改和删除的文件。

参数
- num_files_added – 与父数据集相比添加的文件数量
- num_files_modified – 与父数据集相比，具有相同名称但不同哈希值的文件数量
- num_files_removed – 与父数据集相比，删除的文件数量

上传

upload()

开始文件上传，当所有文件上传完成后函数返回。

参数
- show_progress – 如果为True，显示上传进度条
- verbose – 如果为True，打印详细的进度报告
- output_url – 压缩数据集的目标存储位置（默认：文件服务器）示例：s3://bucket/data, gs://bucket/data , azure://bucket/data , /mnt/share/data
- compression – 用于Zipped数据集文件的压缩算法（默认：ZIP_DEFLATED）
- chunk_size – 压缩数据集的工件块大小（MB），如果未提供（None），则使用默认块大小（512mb）。如果提供-1，则使用单个zip工件用于整个数据集变更集（旧行为）
- max_workers – 压缩和上传文件时要生成的线程数。
  
  如果为None（默认），它将设置为：
  - 1: 如果上传目的地是云提供商（'s3', 'gs', 'azure'）
  - 逻辑核心数量：否则
- retries (int ) – 在上传每个zip文件失败前的重试次数。如果为0，则不会重试上传。
- preview – 如果为True（默认），数据集预览将上传并在UI中显示。
Improvement

如果上传失败（即至少有一个zip文件未能上传），则引发一个ValueError
返回类型

()

验证数据集哈希

verify_dataset_hash(local_copy_path=None, skip_hash=False, verbose=False)

验证当前数据集的副本与存储的哈希值是否一致

参数
- local_copy_path (Optional[str]) – 指定包含数据集副本的本地路径，如果未提供，则使用缓存文件夹
- skip_hash (bool) – 如果为True，跳过哈希检查，仅验证文件大小
- verbose (bool) – 如果为True，则在测试数据集文件哈希时打印错误
返回类型

List[str]
返回

哈希值不匹配的文件列表

类 Dataset()​

添加外部文件​

添加文件​

添加标签​

数据集创建​

数据集.删除​

file_entries_dict​

finalize​

数据集.获取​

获取默认存储​

获取依赖关系图​

获取本地副本​

获取日志记录器​

获取元数据​

get_mutable_local_copy​

get_num_chunks​

获取离线模式文件夹​

数据集.导入离线会话​

is_dirty​

is_final​

数据集.离线状态​

link_entries_dict​

已添加文件列表​

数据集.列出数据集​

列出文件​

列出修改的文件​

列出已删除的文件​

数据集.移动到项目​

发布​

remove_files​

数据集.重命名​

设置描述​

set_metadata​

数据集.设置离线​

数据集压缩​

同步文件夹​

更新更改的文件​

上传​

验证数据集哈希​