Skip to main content

数据集

Dataset()

不要直接使用!请改用 Dataset.create(…) 或 Dataset.get(…)。


添加外部文件

add_external_files(source_url, wildcard=None, dataset_path=None, recursive=True, verbose=False, max_workers=None)

将外部文件或文件夹添加到当前数据集中。 外部文件链接可以来自云存储(s3://, gs://, azure://)、本地/网络存储(file://) 或http(s)//文件。 计算每个文件的大小并与父文件进行比较。

一些示例:

  • 将file.jpg添加到数据集中。当检索整个数据集的副本时(参见dataset.get_local_copy())。 此文件将位于“./my_dataset/new_folder/file.jpg”。 add_external_files(source_url=”s3://my_bucket/stuff/file.jpg”, dataset_path=”/my_dataset/new_folder/”)

  • 将位于名为“my_bucket”的S3存储桶中的所有jpg文件添加到数据集中。 add_external_files(source_url=”s3://my/bucket/”, wildcard = “*.jpg”, dataset_path=”/my_dataset/new_folder/”)

  • 将“remote_folder”的全部内容添加到数据集中。 add_external_files(source_url=”s3://bucket/remote_folder/”, dataset_path=”/my_dataset/new_folder/”)

  • 将本地文件“/folder/local_file.jpg”添加到数据集中。 add_external_files(source_url=”file:///folder/local_file.jpg”, dataset_path=”/my_dataset/new_folder/”)

  • 参数

    • source_url (Union[str, Sequence[str]]) – 源URL链接(例如 s3://bucket/folder/path)或要添加到数据集中的链接列表/元组(例如 [s3://bucket/folder/file.csv, http://web.com/file.txt])

    • wildcard (Union[str, Sequence[str], None]) – 仅添加特定的一组文件。 通配符匹配,可以是单个字符串或通配符列表。

    • dataset_path (Union[str, Sequence[str], None]) – 文件将被下载到数据集中的位置,或位置列表/元组(如果是列表/元组,则必须与 source_url 的长度相同)。 例如:对于 source_url=’s3://bucket/remote_folder/image.jpg’ 和 dataset_path=’s3_files’, ‘image.jpg’ 将被下载到 ‘s3_files/image.jpg’(相对于数据集的路径)。 对于 source_url=[‘s3://bucket/remote_folder/image.jpg’, ‘s3://bucket/remote_folder/image2.jpg’] 和 dataset_path=[‘s3_files’, ‘s3_files_2’],‘image.jpg’ 将被下载到 ‘s3_files/image.jpg’,而 ‘image2.jpg’ 将被下载到 ‘s3_files_2/image2.jpg’(相对于数据集的路径)。

    • recursive (bool) – 如果为True,则递归匹配所有通配符文件

    • verbose (bool) – 如果为True,则打印到控制台添加/修改的文件

    • max_workers (Optional[int]) – 用于添加外部文件的线程数。当source_url是一个序列时非常有用。默认为逻辑核心数

  • 返回类型

    int

  • 返回

    添加的文件链接数量


添加文件

add_files(路径, 通配符=无, 本地基础文件夹=无, 数据集路径=无, 递归=真, 详细=假, 最大工作线程数=无)

将文件夹添加到当前数据集中。计算文件哈希值,并与父级进行比较,标记需要上传的文件

  • 参数

    • path (Union [ str *, * Path *, * _Path ] ) – 向数据集中添加一个文件夹/文件

    • wildcard (可选 [ 联合 [ str *, * 序列 [ str ] ] ] ) – 仅添加特定的一组文件。 通配符匹配,可以是单个字符串或通配符列表。

    • local_base_folder (可选 [ str ] ) – 文件将根据它们相对于 local_base_folder 的相对路径进行定位

    • dataset_path (可选 [ str ] ) – 数据集中文件夹/文件应位于的位置

    • recursive (bool ) – 如果为True,则递归匹配所有通配符文件

    • verbose (bool ) – 如果为True,则打印到控制台添加/修改的文件

    • max_workers (可选 [ int ] ) – 用于添加文件的线程数。默认为逻辑核心数

  • 返回类型

    ()

  • 返回

    添加的文件数量


添加标签

添加标签(tags)

向此数据集添加标签。旧标签不会被删除。当远程执行任务(实验)时,此方法无效。

  • 参数

    tags (Union[Sequence[str], str]) – 描述要添加的任务的标签列表。

  • 返回类型

    None


数据集创建

classmethod create(dataset_name=None, dataset_project=None, dataset_tags=None, parent_datasets=None, use_current_task=False, dataset_version=None, output_uri=None, description=None)

创建一个新的数据集。支持多个数据集父级。 父级数据集的合并是基于顺序进行的, 其中每个父级可以覆盖前一个父级中的重叠文件。

  • 参数

    • dataset_name (Optional[str]) – 命名新数据集

    • dataset_project (Optional[str]) – 包含数据集的项目。 如果未指定,则从父数据集中推断项目名称

    • dataset_tags (Optional[Sequence[str]]) – 可选的,附加到新创建的数据集的标签(字符串)列表

    • parent_datasets (Optional[Sequence[Union[str, Dataset]]]) – 通过添加/删除文件来扩展父数据集

    • use_current_task (bool) – 默认为 False,会创建一个新的数据集任务。 如果为 True,数据集将在当前任务上创建。

    • dataset_version (Optional[str]) – 新数据集的版本。如果未设置,尝试找到给定 dataset_name 和 dataset_project 的最新版本并自动递增。

    • output_uri (Optional[str]) – 上传数据集文件的位置,包括预览样本。

      以下是支持的output_uri位置的示例值:

      • 一个共享文件夹:/mnt/share/folder

      • S3: s3://bucket/folder

      • Google 云存储: gs://bucket-name/folder

      • Azure 存储: azure://company.blob.core.windows.net/folder/

      • 默认文件服务器:无

    • 描述 (Optional[str]) – 数据集的描述

  • 返回类型

    ForwardRef

  • 返回

    新创建的Dataset对象


数据集.删除

classmethod delete(dataset_id=None, dataset_project=None, dataset_name=None, force=False, dataset_version=None, entire_dataset=False, shallow_search=False, delete_files=True, delete_external_files=False)

删除数据集。如果多个数据集匹配参数,则引发异常,或者如果 entire_dataset 为 True 且 force 为 True,则移动整个数据集。

  • 参数

    • dataset_id – 要删除的数据集的ID

    • dataset_project – 要删除的数据集所属的项目

    • dataset_name – 要删除的数据集的名称

    • force – 如果为True,即使数据集正在使用中也会删除。当entire_dataset被设置时,也必须设置为True。

    • dataset_version – 要删除的数据集的版本

    • entire_dataset – 如果为True,删除所有匹配给定dataset_project、dataset_name、dataset_version的数据集。注意,如果此参数为True,则force必须为True

    • shallow_search – 如果为True,仅搜索前500个结果(第一页)

    • delete_files – 删除数据集中的所有本地文件(来自ClearML文件服务器),以及所有与数据集相关的工件。

    • delete_external_files – 删除数据集中的所有外部文件(从其外部存储中)

  • 返回类型

    ()


file_entries_dict

属性 file_entries_dict

请注意,此调用返回一个内部表示,请勿修改! :rtype: Mapping[str, FileEntry] :return: 以相对文件路径为键,FileEntry为值的字典


finalize

finalize(verbose=False, raise_on_error=True, auto_upload=False)

完成数据集发布数据集任务。必须先调用上传以确认没有待处理的上传。 如果确实需要上传文件,则会抛出异常(或返回False)

  • 参数

    • verbose (bool) – 如果为True,打印详细的进度报告

    • raise_on_error (bool) – 如果为True,当数据集最终化失败时抛出异常

    • auto_upload (bool) – 如果尚未调用,则自动上传数据集,将上传到默认位置。

  • 返回类型

    bool


数据集.获取

**类方法 get(dataset_id=None, dataset_project=None, dataset_name=None, dataset_tags=None, only_completed=False, only_published=False, include_archived=False, auto_create=False, writable_copy=False, dataset_version=None, alias=None, overridable=False, shallow_search=False, kwargs)

获取特定的数据集。如果找到多个数据集,则返回具有最高语义版本的数据集。如果未找到语义版本,则返回最近更新的数据集。如果未找到数据集且未设置auto_create=True标志,此函数将引发异常。

  • 参数

    • dataset_id (Optional[str]) – 请求的数据集ID

    • dataset_project (Optional[str]) – 请求的数据集项目名称

    • dataset_name (Optional[str]) – 请求的数据集名称

    • dataset_tags (Optional[Sequence[str]]) – 请求的数据集标签(标签字符串列表)

    • only_completed (bool) – 仅当请求的数据集已完成或发布时返回

    • only_published (bool) – 仅当请求的数据集已发布时返回

    • include_archived (bool) – 包括已归档的任务和数据集

    • auto_create (bool) – 如果数据集尚不存在,则创建一个新的数据集

    • writable_copy (bool) – 获取一个新创建的可变数据集,以当前数据集作为其父级,因此可以向实例中添加新文件。

    • dataset_version (Optional[str]) – 请求的数据集版本

    • alias (Optional[str]) – 数据集的别名。如果设置了,'alias : dataset ID' 键值对将会设置在超参数部分的 'Datasets' 下。

    • 可覆盖的 (bool) – 如果为True,允许在超参数部分使用给定的别名覆盖数据集ID。当希望在远程运行任务时更改使用的数据集时非常有用。如果未设置别名参数,则此参数无效。

    • shallow_search (bool) – 如果为True,仅搜索前500个结果(第一页)

  • 返回类型

    ForwardRef

  • 返回

    数据集对象


获取默认存储

get_default_storage()

返回数据集的默认存储位置

  • 返回类型

    Optional[str]

  • 返回

    默认存储位置的URL


获取依赖关系图

get_dependency_graph()

返回数据集依赖关系的DAG(所有先前数据集版本及其父级)

示例:

{
'current_dataset_id': ['parent_1_id', 'parent_2_id'],
'parent_2_id': ['parent_1_id'],
'parent_1_id': [],
}
  • 返回

    表示当前数据集的家谱DAG图的字典


获取本地副本

get_local_copy(use_soft_links=None, part=None, num_parts=None, raise_on_error=True, max_workers=None)

返回一个包含整个数据集的只读(不可变)本地副本的基础文件夹 下载并复制/软链接所有父数据集版本的文件。数据集需要被最终化

  • 参数

    • use_soft_links (Optional[bool]) – 如果为True,则使用软链接,Windows上默认为False,Posix系统上默认为True

    • 部分 (Optional[int]) – 可选,如果提供,则仅下载数据集的选定部分(索引)。 第一个部分的编号为0,最后一个部分为num_parts-1。 请注意,如果未提供num_parts,则部分数量将等于块的总数 (即从指定数据集包括所有父数据集的所有块的总和)。 此参数传递给父数据集以及隐式的num_parts, 允许用户获取整个数据集的部分副本,用于多节点/步骤处理。

    • num_parts (Optional[int]) – 可选,如果指定,将存储的块数标准化为请求的部分数。请注意,每个部分实际使用的块数会向下取整。 示例:假设此数据集(包括父数据集)总共有8个块,且num_parts=5,每个部分使用的块索引将为: part=0 -> chunks[0,5], part=1 -> chunks[1,6], part=2 -> chunks[2,7], part=3 -> chunks[3, ]

    • raise_on_error (bool) – 如果为True,在任何文件上数据集合并失败时抛出异常

    • max_workers (Optional[int]) – 获取数据集副本时要生成的线程数。默认为逻辑核心数。

  • 返回类型

    str

  • 返回

    整个数据集的基础文件夹


获取日志记录器

get_logger()

返回一个用于数据集的Logger对象,允许用户在数据集本身上报告统计指标和调试样本

  • 返回类型

    Logger

  • 返回

    日志记录器对象


获取元数据

get_metadata(metadata_name='metadata')

以原始格式获取附加的元数据。如果未找到,将返回None。

  • 返回类型

    可选[numpy.array, pd.DataFrame, dict, str, bool]

  • 参数

    metadata_name (str ) –


get_mutable_local_copy

get_mutable_local_copy(target_folder, overwrite=False, part=None, num_parts=None, raise_on_error=True, max_workers=None)

返回一个包含整个数据集可写(可变)本地副本的基础文件夹。 从所有父数据集版本下载并复制/软链接文件。请注意,该方法最初将本地副本下载到缓存目录中,然后将其移动到target_folder。确保默认缓存目录有足够的磁盘空间。

  • 参数

    • target_folder (Union[Path, Path, str]) – 可写副本的目标文件夹

    • overwrite (bool) – 如果为True,则在创建副本之前递归删除目标文件夹。 如果为False(默认值)且目标文件夹包含文件,则引发异常或返回None

    • 部分 (Optional[int]) – 可选,如果提供,则仅下载数据集的选定部分(索引)。 第一个部分的编号为0,最后一个部分为num_parts-1。 请注意,如果未提供num_parts,则部分数量将等于块的总数 (即从指定数据集包括所有父数据集的所有块的总和)。 此参数传递给父数据集以及隐式的num_parts, 允许用户获取整个数据集的部分副本,用于多节点/步骤处理。

    • num_parts (Optional[int]) – 可选,如果指定,将存储的块数标准化为请求的部分数。请注意,每个部分实际使用的块数会向下取整。 示例:假设此数据集(包括父数据集)总共有8个块,且num_parts=5,每个部分使用的块索引将为: part=0 -> chunks[0,5], part=1 -> chunks[1,6], part=2 -> chunks[2,7], part=3 -> chunks[3, ]

    • raise_on_error (bool) – 如果为True,在任何文件上数据集合并失败时抛出异常

    • max_workers (Optional[int]) – 获取数据集副本时要生成的线程数。默认为逻辑核心数。

  • 返回类型

    Optional[str]

  • 返回

    包含整个数据集的目标文件夹


get_num_chunks

get_num_chunks(include_parents=True)

返回存储在此数据集上的块数 (这并不意味着父版本存储的块数)

  • 参数

    include_parents (bool) – 如果为 True(默认), 返回此版本和所有父版本的总块数。 如果为 False,仅返回我们在此特定版本上存储的块数。

  • 返回类型

    int

  • 返回

    数据集中存储的块数。


获取离线模式文件夹

get_offline_mode_folder()

返回离线会话中所有数据集数据存储的文件夹。

  • 返回类型

    Optional[Path]

  • 返回

    路径对象,本地文件夹


数据集.导入离线会话

classmethod import_offline_session(session_folder_zip, upload=True, finalize=False)

导入数据集的离线会话。 包括仓库详情、已安装的包、工件、日志、指标和调试样本。

  • 参数

    • session_folder_zip (str) – 包含会话的文件夹路径,或会话文件夹的压缩文件。

    • upload (bool) – 如果为True,则上传数据集的数据

    • finalize (bool) – 如果为True,则完成数据集

  • 返回类型

    str

  • 返回

    导入的数据集的ID


is_dirty

is_dirty()

如果数据集有待上传的内容(即我们无法完成它),则返回True

  • 返回类型

    bool

  • 返回

    返回 True 表示数据集有待上传的文件,调用 'upload' 开始上传过程。


is_final

is_final()

如果数据集已最终确定且无法再更改,则返回True。

  • 返回类型

    bool

  • 返回

    如果数据集是最终的,则为True


数据集.离线状态

classmethod is_offline()

返回离线模式状态,如果处于离线模式,则不启用与后端的通信。

  • 返回类型

    bool

  • 返回

    布尔离线模式状态


属性 link_entries_dict

请注意,此调用返回一个内部表示,请勿修改!

  • 返回类型

    Mapping[str, LinkEntry]

  • 返回

    字典,以相对文件路径为键,LinkEntry为值


已添加文件列表

list_added_files(dataset_id=None)

返回与特定dataset_id比较时添加的文件列表

  • 参数

    dataset_id (Optional[str]) – 数据集ID (str) 用于比较,如果未提供,则与父数据集进行比较

  • 返回类型

    List[str]

  • 返回

    相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)


数据集.列出数据集

classmethod list_datasets(dataset_project=None, partial_name=None, tags=None, ids=None, only_completed=True, recursive_project_search=True, include_archived=True)

查询系统中的数据集列表

  • 参数

    • dataset_project (Optional[str]) – 指定数据集项目名称

    • partial_name (Optional[str]) – 指定数据集名称的部分匹配。此方法支持用于名称匹配的正则表达式(如果您希望匹配特殊字符并避免任何正则表达式行为,请使用 re.escape())

    • 标签 (Optional[Sequence[str]]) – 指定用户标签

    • ids (Optional[Sequence[str]]) – 基于ID列表列出特定数据集

    • only_completed (bool) – 如果为False,返回仍在进行中的数据集(上传/编辑等)

    • recursive_project_search (bool) – 如果为True并且设置了dataset_project参数,则也会在子项目中搜索。 如果为False,则不在子项目中搜索(除了特殊的.datasets子项目)

    • include_archived (bool) – 如果为True,则包括已归档的数据集。

  • 返回类型

    List[dict]

  • 返回

    包含数据集信息的字典列表 示例:[{'name': name, 'project': project name, 'id': dataset_id, 'created': date_created},]


列出文件

list_files(dataset_path=None, recursive=True, dataset_id=None)

返回当前数据集中的文件列表 如果提供了dataset_id,则返回自指定dataset_id以来未更改的文件列表

  • 参数

    • dataset_path (Optional[str]) – 仅匹配与 dataset_path 匹配的文件(包括通配符)。 示例:'folder/sub/*.json'

    • recursive (bool) – 如果为True(默认),则递归匹配dataset_path

    • dataset_id (Optional[str]) – 根据包含文件最新版本的数据集ID过滤列表。 默认值:无,不根据父数据集过滤文件。

  • 返回类型

    List[str]

  • 返回

    相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)


列出修改的文件

list_modified_files(dataset_id=None)

返回与特定dataset_id比较时修改的文件列表

  • 参数

    dataset_id (Optional[str]) – 数据集ID (str) 用于比较,如果未提供,则与父数据集进行比较

  • 返回类型

    List[str]

  • 返回

    相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)


列出已删除的文件

list_removed_files(dataset_id=None)

返回与特定dataset_id比较时删除的文件列表

  • 参数

    dataset_id (Optional[str]) – 数据集ID (str) 用于比较,如果未提供,则与父数据集进行比较

  • 返回类型

    List[str]

  • 返回

    相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)


数据集.移动到项目

classmethod move_to_project(new_dataset_project, dataset_project, dataset_name)

将数据集移动到另一个项目。

  • 参数

    • new_dataset_project – 将数据集移动到的新项目

    • dataset_project – 要移动到新项目的数据集的项目

    • dataset_name – 要移动到新项目的数据集名称

  • 返回类型

    ()


发布

publish(raise_on_error=True)

发布数据集 如果数据集未最终确定,抛出异常

  • 参数

    raise_on_error (bool) – 如果为True,数据集发布失败时抛出异常

  • 返回类型

    bool


remove_files

remove_files(dataset_path=None, recursive=True, verbose=False)

从当前数据集中移除文件

  • 参数

    • dataset_path (Optional[str]) – 从数据集中删除文件。 路径始终相对于数据集(例如 'folder/file.bin')。 外部文件也可以通过其链接删除(例如 's3://bucket/file')

    • recursive (bool) – 如果为True,则递归匹配所有通配符文件

    • verbose (bool) – 如果为True,打印到控制台已删除的文件

  • 返回类型

    int

  • 返回

    删除的文件数量


数据集.重命名

classmethod rename(new_dataset_name, dataset_project, dataset_name)

重命名数据集。

  • 参数

    • new_dataset_name – 要重命名的数据集的新名称

    • dataset_project – 数据集所属的项目,这些数据集将被重命名

    • dataset_name – 数据集的名称(在重命名之前)

  • 返回类型

    ()


设置描述

设置描述(description)

设置数据集的描述

  • 参数

    描述 (str ) – 要设置的描述

  • 返回类型

    ()


set_metadata

set_metadata(metadata, metadata_name='metadata', ui_visible=True)

将用户定义的元数据附加到数据集。检查Task.upload_artifact以了解支持的类型。 如果类型是Pandas数据框,可以选择在UI中将其显示为表格。

  • 返回类型

    ()

  • 参数

    • metadata (Union [ numpy.array *, * pd.DataFrame *, * Dict [ str *, * Any ] ] ) –

    • metadata_name (str ) –

    • ui_visible (bool ) –


数据集.设置离线

classmethod set_offline(offline_mode=False)

设置离线模式,所有数据和日志将存储在本地文件夹中,以便稍后传输

  • 参数

    offline_mode (bool) – 如果为True,则开启离线模式,并且不启用与后端的通信。

  • 返回类型

    None


数据集压缩

classmethod squash(dataset_name, dataset_ids=None, dataset_project_name_pairs=None, output_url=None)

从数据集版本的压缩集合中生成一个新的数据集。 如果给出单个版本,它将压缩到根目录(即创建单个独立版本) 如果给出了一组版本,它将把这些版本的差异压缩成一个单一版本

  • 参数

    • dataset_name (str ) – 新生成的压缩数据集的目标名称

    • dataset_ids (可选 [ 序列 [ 联合 [ str *, * 数据集 ] ] ] ) – 要压缩的数据集ID(或对象)列表。注意顺序很重要。 版本从第一个到最后一个合并。

    • dataset_project_name_pairs (可选 [ 序列 [ ( str *, * str ) ] ] ) – 要压缩的 (project_name, dataset_name) 对列表。 注意顺序很重要。版本从第一个到最后一个合并。

    • output_url (可选 [ str ] ) – 压缩数据集的目标存储位置(默认:文件服务器) 示例:s3://bucket/data, gs://bucket/data , azure://bucket/data , /mnt/share/data

  • 返回类型

    “数据集”

  • 返回

    新创建的数据集对象。


同步文件夹

sync_folder(local_path, dataset_path=None, verbose=False)

将数据集与本地文件夹同步。数据集从relative_base_folder(默认:数据集根目录)及其更深层次的目录与指定的本地路径同步。请注意,如果在同步时识别出远程文件已被修改,它将被添加为FileEntry,准备上传到ClearML服务器。此版本的文件被视为“较新”,在调用Dataset.get_local_copy()时,将下载此版本而不是存储在其远程地址的版本。

  • 参数

    • local_path (Union [ Path *, * _Path *, * str ] ) – 要同步的本地文件夹(假设所有文件和递归)

    • dataset_path (Union [ Path *, * _Path *, * str ] ) – 要同步的目标数据集路径(默认为数据集的根目录)

    • verbose (bool ) – 如果为True,则在控制台打印添加/修改/删除的文件

  • 返回类型

    (int, int, int)

  • 返回

    删除的文件数量,修改/添加的文件数量


更新更改的文件

update_changed_files(num_files_added=None, num_files_modified=None, num_files_removed=None)

更新内部状态,跟踪添加、修改和删除的文件。

  • 参数

    • num_files_added – 与父数据集相比添加的文件数量

    • num_files_modified – 与父数据集相比,具有相同名称但不同哈希值的文件数量

    • num_files_removed – 与父数据集相比,删除的文件数量


上传

upload()

开始文件上传,当所有文件上传完成后函数返回。

  • 参数

    • show_progress – 如果为True,显示上传进度条

    • verbose – 如果为True,打印详细的进度报告

    • output_url – 压缩数据集的目标存储位置(默认:文件服务器) 示例:s3://bucket/data, gs://bucket/data , azure://bucket/data , /mnt/share/data

    • compression – 用于Zipped数据集文件的压缩算法(默认:ZIP_DEFLATED)

    • chunk_size – 压缩数据集的工件块大小(MB), 如果未提供(None),则使用默认块大小(512mb)。 如果提供-1,则使用单个zip工件用于整个数据集变更集(旧行为)

    • max_workers – 压缩和上传文件时要生成的线程数。

      如果为None(默认),它将设置为:

      • 1: 如果上传目的地是云提供商('s3', 'gs', 'azure')

      • 逻辑核心数量:否则

    • retries (int ) – 在上传每个zip文件失败前的重试次数。如果为0,则不会重试上传。

    • preview – 如果为True(默认),数据集预览将上传并在UI中显示。

  • Improvement

    如果上传失败(即至少有一个zip文件未能上传),则引发一个ValueError

  • 返回类型

    ()


验证数据集哈希

verify_dataset_hash(local_copy_path=None, skip_hash=False, verbose=False)

验证当前数据集的副本与存储的哈希值是否一致

  • 参数

    • local_copy_path (Optional[str]) – 指定包含数据集副本的本地路径, 如果未提供,则使用缓存文件夹

    • skip_hash (bool) – 如果为True,跳过哈希检查,仅验证文件大小

    • verbose (bool) – 如果为True,则在测试数据集文件哈希时打印错误

  • 返回类型

    List[str]

  • 返回

    哈希值不匹配的文件列表