数据集
类 Dataset()
不要直接使用!请改用 Dataset.create(…) 或 Dataset.get(…)。
添加外部文件
add_external_files(source_url, wildcard=None, dataset_path=None, recursive=True, verbose=False, max_workers=None)
将外部文件或文件夹添加到当前数据集中。 外部文件链接可以来自云存储(s3://, gs://, azure://)、本地/网络存储(file://) 或http(s)//文件。 计算每个文件的大小并与父文件进行比较。
一些示例:
-
将file.jpg添加到数据集中。当检索整个数据集的副本时(参见dataset.get_local_copy())。 此文件将位于“./my_dataset/new_folder/file.jpg”。 add_external_files(source_url=”s3://my_bucket/stuff/file.jpg”, dataset_path=”/my_dataset/new_folder/”)
-
将位于名为“my_bucket”的S3存储桶中的所有jpg文件添加到数据集中。 add_external_files(source_url=”s3://my/bucket/”, wildcard = “*.jpg”, dataset_path=”/my_dataset/new_folder/”)
-
将“remote_folder”的全部内容添加到数据集中。 add_external_files(source_url=”s3://bucket/remote_folder/”, dataset_path=”/my_dataset/new_folder/”)
-
将本地文件“/folder/local_file.jpg”添加到数据集中。 add_external_files(source_url=”file:///folder/local_file.jpg”, dataset_path=”/my_dataset/new_folder/”)
-
参数
-
source_url (
Union
[str
,Sequence
[str
]]) – 源URL链接(例如 s3://bucket/folder/path)或要添加到数据集中的链接列表/元组(例如 [s3://bucket/folder/file.csv, http://web.com/file.txt]) -
wildcard (
Union
[str
,Sequence
[str
],None
]) – 仅添加特定的一组文件。 通配符匹配,可以是单个字符串或通配符列表。 -
dataset_path (
Union
[str
,Sequence
[str
],None
]) – 文件将被下载到数据集中的位置,或位置列表/元组(如果是列表/元组,则必须与source_url
的长度相同)。 例如:对于 source_url=’s3://bucket/remote_folder/image.jpg’ 和 dataset_path=’s3_files’, ‘image.jpg’ 将被下载到 ‘s3_files/image.jpg’(相对于数据集的路径)。 对于 source_url=[‘s3://bucket/remote_folder/image.jpg’, ‘s3://bucket/remote_folder/image2.jpg’] 和 dataset_path=[‘s3_files’, ‘s3_files_2’],‘image.jpg’ 将被下载到 ‘s3_files/image.jpg’,而 ‘image2.jpg’ 将被下载到 ‘s3_files_2/image2.jpg’(相对于数据集的路径)。 -
recursive (
bool
) – 如果为True,则递归匹配所有通配符文件 -
verbose (
bool
) – 如果为True,则打印到控制台添加/修改的文件 -
max_workers (
Optional
[int
]) – 用于添加外部文件的线程数。当source_url是一个序列时非常有用。默认为逻辑核心数
-
-
返回类型
int
-
返回
添加的文件链接数量
添加文件
add_files(路径, 通配符=无, 本地基础文件夹=无, 数据集路径=无, 递归=真, 详细=假, 最大工作线程数=无)
将文件夹添加到当前数据集中。计算文件哈希值,并与父级进行比较,标记需要上传的文件
-
参数
-
path (Union [ str *, * Path *, * _Path ] ) – 向数据集中添加一个文件夹/文件
-
wildcard (可选 [ 联合 [ str *, * 序列 [ str ] ] ] ) – 仅添加特定的一组文件。 通配符匹配,可以是单个字符串或通配符列表。
-
local_base_folder (可选 [ str ] ) – 文件将根据它们相对于 local_base_folder 的相对路径进行定位
-
dataset_path (可选 [ str ] ) – 数据集中文件夹/文件应位于的位置
-
recursive (bool ) – 如果为True,则递归匹配所有通配符文件
-
verbose (bool ) – 如果为True,则打印到控制台添加/修改的文件
-
max_workers (可选 [ int ] ) – 用于添加文件的线程数。默认为逻辑核心数
-
-
返回类型
()
-
返回
添加的文件数量
添加标签
添加标签(tags)
向此数据集添加标签。旧标签不会被删除。当远程执行任务(实验)时,此方法无效。
-
参数
tags (
Union
[Sequence
[str
],str
]) – 描述要添加的任务的标签列表。 -
返回类型
None
数据集创建
classmethod create(dataset_name=None, dataset_project=None, dataset_tags=None, parent_datasets=None, use_current_task=False, dataset_version=None, output_uri=None, description=None)
创建一个新的数据集。支持多个数据集父级。 父级数据集的合并是基于顺序进行的, 其中每个父级可以覆盖前一个父级中的重叠文件。
-
参数
-
dataset_name (
Optional
[str
]) – 命名新数据集 -
dataset_project (
Optional
[str
]) – 包含数据集的项目。 如果未指定,则从父数据集中推断项目名称 -
dataset_tags (
Optional
[Sequence
[str
]]) – 可选的,附加到新创建的数据集的标签(字符串)列表 -
parent_datasets (
Optional
[Sequence
[Union
[str
,Dataset
]]]) – 通过添加/删除文件来扩展父数据集 -
use_current_task (
bool
) – 默认为 False,会创建一个新的数据集任务。 如果为 True,数据集将在当前任务上创建。 -
dataset_version (
Optional
[str
]) – 新数据集的版本。如果未设置,尝试找到给定 dataset_name 和 dataset_project 的最新版本并自动递增。 -
output_uri (
Optional
[str
]) – 上传数据集文件的位置,包括预览样本。以下是支持的
output_uri
位置的示例值:-
一个共享文件夹:
/mnt/share/folder
-
S3:
s3://bucket/folder
-
Google 云存储:
gs://bucket-name/folder
-
Azure 存储:
azure://company.blob.core.windows.net/folder/
-
默认文件服务器:无
-
-
描述 (
Optional
[str
]) – 数据集的描述
-
-
返回类型
ForwardRef
-
返回
新创建的Dataset对象
数据集.删除
classmethod delete(dataset_id=None, dataset_project=None, dataset_name=None, force=False, dataset_version=None, entire_dataset=False, shallow_search=False, delete_files=True, delete_external_files=False)
删除数据集。如果多个数据集匹配参数,则引发异常,或者如果 entire_dataset 为 True 且 force 为 True,则移动整个数据集。
-
参数
-
dataset_id – 要删除的数据集的ID
-
dataset_project – 要删除的数据集所属的项目
-
dataset_name – 要删除的数据集的名称
-
force – 如果为True,即使数据集正在使用中也会删除。当entire_dataset被设置时,也必须设置为True。
-
dataset_version – 要删除的数据集的版本
-
entire_dataset – 如果为True,删除所有匹配给定dataset_project、dataset_name、dataset_version的数据集。注意,如果此参数为True,则force必须为True
-
shallow_search – 如果为True,仅搜索前500个结果(第一页)
-
delete_files – 删除数据集中的所有本地文件(来自ClearML文件服务器),以及所有与数据集相关的工件。
-
delete_external_files – 删除数据集中的所有外部文件(从其外部存储中)
-
-
返回类型
()
file_entries_dict
属性 file_entries_dict
请注意,此调用返回一个内部表示,请勿修改!
:rtype: Mapping
[str
, FileEntry
]
:return: 以相对文件路径为键,FileEntry为值的字典
finalize
finalize(verbose=False, raise_on_error=True, auto_upload=False)
完成数据集发布数据集任务。必须先调用上传以确认没有待处理的上传。 如果确实需要上传文件,则会抛出异常(或返回False)
-
参数
-
verbose (
bool
) – 如果为True,打印详细的进度报告 -
raise_on_error (
bool
) – 如果为True,当数据集最终化失败时抛出异常 -
auto_upload (
bool
) – 如果尚未调用,则自动上传数据集,将上传到默认位置。
-
-
返回类型
bool
数据集.获取
**类方法 get(dataset_id=None, dataset_project=None, dataset_name=None, dataset_tags=None, only_completed=False, only_published=False, include_archived=False, auto_create=False, writable_copy=False, dataset_version=None, alias=None, overridable=False, shallow_search=False, kwargs)
获取特定的数据集。如果找到多个数据集,则返回具有最高语义版本的数据集。如果未找到语义版本,则返回最近更新的数据集。如果未找到数据集且未设置auto_create=True
标志,此函数将引发异常。
-
参数
-
dataset_id (
Optional
[str
]) – 请求的数据集ID -
dataset_project (
Optional
[str
]) – 请求的数据集项目名称 -
dataset_name (
Optional
[str
]) – 请求的数据集名称 -
dataset_tags (
Optional
[Sequence
[str
]]) – 请求的数据集标签(标签字符串列表) -
only_completed (
bool
) – 仅当请求的数据集已完成或发布时返回 -
only_published (
bool
) – 仅当请求的数据集已发布时返回 -
include_archived (
bool
) – 包括已归档的任务和数据集 -
auto_create (
bool
) – 如果数据集尚不存在,则创建一个新的数据集 -
writable_copy (
bool
) – 获取一个新创建的可变数据集,以当前数据集作为其父级,因此可以向实例中添加新文件。 -
dataset_version (
Optional
[str
]) – 请求的数据集版本 -
alias (
Optional
[str
]) – 数据集的别名。如果设置了,'alias : dataset ID' 键值对将会设置在超参数部分的 'Datasets' 下。 -
可覆盖的 (
bool
) – 如果为True,允许在超参数部分使用给定的别名覆盖数据集ID。当希望在远程运行任务时更改使用的数据集时非常有用。如果未设置别名参数,则此参数无效。 -
shallow_search (
bool
) – 如果为True,仅搜索前500个结果(第一页)
-
-
返回类型
ForwardRef
-
返回
数据集对象
获取默认存储
get_default_storage()
返回数据集的默认存储位置
-
返回类型
Optional
[str
] -
返回
默认存储位置的URL
获取依赖关系图
get_dependency_graph()
返回数据集依赖关系的DAG(所有先前数据集版本及其父级)
示例:
{
'current_dataset_id': ['parent_1_id', 'parent_2_id'],
'parent_2_id': ['parent_1_id'],
'parent_1_id': [],
}
-
返回
表示当前数据集的家谱DAG图的字典
获取本地副本
get_local_copy(use_soft_links=None, part=None, num_parts=None, raise_on_error=True, max_workers=None)
返回一个包含整个数据集的只读(不可变)本地副本的基础文件夹 下载并复制/软链接所有父数据集版本的文件。数据集需要被最终化
-
参数
-
use_soft_links (
Optional
[bool
]) – 如果为True,则使用软链接,Windows上默认为False,Posix系统上默认为True -
部分 (
Optional
[int
]) – 可选,如果提供,则仅下载数据集的选定部分(索引)。 第一个部分的编号为0,最后一个部分为num_parts-1。 请注意,如果未提供num_parts,则部分数量将等于块的总数 (即从指定数据集包括所有父数据集的所有块的总和)。 此参数传递给父数据集以及隐式的num_parts, 允许用户获取整个数据集的部分副本,用于多节点/步骤处理。 -
num_parts (
Optional
[int
]) – 可选,如果指定,将存储的块数标准化为请求的部分数。请注意,每个部分实际使用的块数会向下取整。 示例:假设此数据集(包括父数据集)总共有8个块,且num_parts=5,每个部分使用的块索引将为: part=0 -> chunks[0,5], part=1 -> chunks[1,6], part=2 -> chunks[2,7], part=3 -> chunks[3, ] -
raise_on_error (
bool
) – 如果为True,在任何文件上数据集合并失败时抛出异常 -
max_workers (
Optional
[int
]) – 获取数据集副本时要生成的线程数。默认为逻辑核心数。
-
-
返回类型
str
-
返回
整个数据集的基础文件夹
获取日志记录器
get_logger()
返回一个用于数据集的Logger对象,允许用户在数据集本身上报告统计指标和调试样本
-
返回类型
-
返回
日志记录器对象
获取元数据
get_metadata(metadata_name='metadata')
以原始格式获取附加的元数据。如果未找到,将返回None。
-
返回类型
可选[numpy.array, pd.DataFrame, dict, str, bool]
-
参数
metadata_name (str ) –
get_mutable_local_copy
get_mutable_local_copy(target_folder, overwrite=False, part=None, num_parts=None, raise_on_error=True, max_workers=None)
返回一个包含整个数据集可写(可变)本地副本的基础文件夹。 从所有父数据集版本下载并复制/软链接文件。请注意,该方法最初将本地副本下载到缓存目录中,然后将其移动到target_folder。确保默认缓存目录有足够的磁盘空间。
-
参数
-
target_folder (
Union
[Path
,Path
,str
]) – 可写副本的目标文件夹 -
overwrite (
bool
) – 如果为True,则在创建副本之前递归删除目标文件夹。 如果为False(默认值)且目标文件夹包含文件,则引发异常或返回None -
部分 (
Optional
[int
]) – 可选,如果提供,则仅下载数据集的选定部分(索引)。 第一个部分的编号为0,最后一个部分为num_parts-1。 请注意,如果未提供num_parts,则部分数量将等于块的总数 (即从指定数据集包括所有父数据集的所有块的总和)。 此参数传递给父数据集以及隐式的num_parts, 允许用户获取整个数据集的部分副本,用于多节点/步骤处理。 -
num_parts (
Optional
[int
]) – 可选,如果指定,将存储的块数标准化为请求的部分数。请注意,每个部分实际使用的块数会向下取整。 示例:假设此数据集(包括父数据集)总共有8个块,且num_parts=5,每个部分使用的块索引将为: part=0 -> chunks[0,5], part=1 -> chunks[1,6], part=2 -> chunks[2,7], part=3 -> chunks[3, ] -
raise_on_error (
bool
) – 如果为True,在任何文件上数据集合并失败时抛出异常 -
max_workers (
Optional
[int
]) – 获取数据集副本时要生成的线程数。默认为逻辑核心数。
-
-
返回类型
Optional
[str
] -
返回
包含整个数据集的目标文件夹
get_num_chunks
get_num_chunks(include_parents=True)
返回存储在此数据集上的块数 (这并不意味着父版本存储的块数)
-
参数
include_parents (
bool
) – 如果为 True(默认), 返回此版本和所有父版本的总块数。 如果为 False,仅返回我们在此特定版本上存储的块数。 -
返回类型
int
-
返回
数据集中存储的块数。
获取离线模式文件夹
get_offline_mode_folder()
返回离线会话中所有数据集数据存储的文件夹。
-
返回类型
Optional
[Path
] -
返回
路径对象,本地文件夹
数据集.导入离线会话
classmethod import_offline_session(session_folder_zip, upload=True, finalize=False)
导入数据集的离线会话。 包括仓库详情、已安装的包、工件、日志、指标和调试样本。
-
参数
-
session_folder_zip (
str
) – 包含会话的文件夹路径,或会话文件夹的压缩文件。 -
upload (
bool
) – 如果为True,则上传数据集的数据 -
finalize (
bool
) – 如果为True,则完成数据集
-
-
返回类型
str
-
返回
导入的数据集的ID
is_dirty
is_dirty()
如果数据集有待上传的内容(即我们无法完成它),则返回True
-
返回类型
bool
-
返回
返回 True 表示数据集有待上传的文件,调用 'upload' 开始上传过程。
is_final
is_final()
如果数据集已最终确定且无法再更改,则返回True。
-
返回类型
bool
-
返回
如果数据集是最终的,则为True
数据集.离线状态
classmethod is_offline()
返回离线模式状态,如果处于离线模式,则不启用与后端的通信。
-
返回类型
bool
-
返回
布尔离线模式状态
link_entries_dict
属性 link_entries_dict
请注意,此调用返回一个内部表示,请勿修改!
-
返回类型
Mapping
[str
,LinkEntry
] -
返回
字典,以相对文件路径为键,LinkEntry为值
已添加文件列表
list_added_files(dataset_id=None)
返回与特定dataset_id比较时添加的文件列表
-
参数
dataset_id (
Optional
[str
]) – 数据集ID (str) 用于比较,如果未提供,则与父数据集进行比较 -
返回类型
List
[str
] -
返回
相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)
数据集.列出数据集
classmethod list_datasets(dataset_project=None, partial_name=None, tags=None, ids=None, only_completed=True, recursive_project_search=True, include_archived=True)
查询系统中的数据集列表
-
参数
-
dataset_project (
Optional
[str
]) – 指定数据集项目名称 -
partial_name (
Optional
[str
]) – 指定数据集名称的部分匹配。此方法支持用于名称匹配的正则表达式(如果您希望匹配特殊字符并避免任何正则表达式行为,请使用 re.escape()) -
标签 (
Optional
[Sequence
[str
]]) – 指定用户标签 -
ids (
Optional
[Sequence
[str
]]) – 基于ID列表列出特定数据集 -
only_completed (
bool
) – 如果为False,返回仍在进行中的数据集(上传/编辑等) -
recursive_project_search (
bool
) – 如果为True并且设置了dataset_project参数,则也会在子项目中搜索。 如果为False,则不在子项目中搜索(除了特殊的.datasets子项目) -
include_archived (
bool
) – 如果为True,则包括已归档的数据集。
-
-
返回类型
List
[dict
] -
返回
包含数据集信息的字典列表 示例:
[{'name': name, 'project': project name, 'id': dataset_id, 'created': date_created},]
列出文件
list_files(dataset_path=None, recursive=True, dataset_id=None)
返回当前数据集中的文件列表 如果提供了dataset_id,则返回自指定dataset_id以来未更改的文件列表
-
参数
-
dataset_path (
Optional
[str
]) – 仅匹配与 dataset_path 匹配的文件(包括通配符)。 示例:'folder/sub/*.json' -
recursive (
bool
) – 如果为True(默认),则递归匹配dataset_path -
dataset_id (
Optional
[str
]) – 根据包含文件最新版本的数据集ID过滤列表。 默认值:无,不根据父数据集过滤文件。
-
-
返回类型
List
[str
] -
返回
相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)
列出修改的文件
list_modified_files(dataset_id=None)
返回与特定dataset_id比较时修改的文件列表
-
参数
dataset_id (
Optional
[str
]) – 数据集ID (str) 用于比较,如果未提供,则与父数据集进行比较 -
返回类型
List
[str
] -
返回
相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)
列出已删除的文件
list_removed_files(dataset_id=None)
返回与特定dataset_id比较时删除的文件列表
-
参数
dataset_id (
Optional
[str
]) – 数据集ID (str) 用于比较,如果未提供,则与父数据集进行比较 -
返回类型
List
[str
] -
返回
相对路径的文件列表 (在调用get_local_copy()之前,文件可能无法在本地获取)
数据集.移动到项目
classmethod move_to_project(new_dataset_project, dataset_project, dataset_name)
将数据集移动到另一个项目。
-
参数
-
new_dataset_project – 将数据集移动到的新项目
-
dataset_project – 要移动到新项目的数据集的项目
-
dataset_name – 要移动到新项目的数据集名称
-
-
返回类型
()
发布
publish(raise_on_error=True)
发布数据集 如果数据集未最终确定,抛出异常
-
参数
raise_on_error (
bool
) – 如果为True,数据集发布失败时抛出异常 -
返回类型
bool
remove_files
remove_files(dataset_path=None, recursive=True, verbose=False)
从当前数据集中移除文件
-
参数
-
dataset_path (
Optional
[str
]) – 从数据集中删除文件。 路径始终相对于数据集(例如 'folder/file.bin')。 外部文件也可以通过其链接删除(例如 's3://bucket/file') -
recursive (
bool
) – 如果为True,则递归匹配所有通配符文件 -
verbose (
bool
) – 如果为True,打印到控制台已删除的文件
-
-
返回类型
int
-
返回
删除的文件数量
数据集.重命名
classmethod rename(new_dataset_name, dataset_project, dataset_name)
重命名数据集。
-
参数
-
new_dataset_name – 要重命名的数据集的新名称
-
dataset_project – 数据集所属的项目,这些数据集将被重命名
-
dataset_name – 数据集的名称(在重命名之前)
-
-
返回类型
()
设置描述
设置描述(description)
设置数据集的描述
-
参数
描述 (str ) – 要设置的描述
-
返回类型
()
set_metadata
set_metadata(metadata, metadata_name='metadata', ui_visible=True)
将用户定义的元数据附加到数据集。检查Task.upload_artifact以了解支持的类型。 如果类型是Pandas数据框,可以选择在UI中将其显示为表格。
-
返回类型
()
-
参数
-
metadata (Union [ numpy.array *, * pd.DataFrame *, * Dict [ str *, * Any ] ] ) –
-
metadata_name (str ) –
-
ui_visible (bool ) –
-
数据集.设置离线
classmethod set_offline(offline_mode=False)
设置离线模式,所有数据和日志将存储在本地文件夹中,以便稍后传输
-
参数
offline_mode (
bool
) – 如果为True,则开启离线模式,并且不启用与后端的通信。 -
返回类型
None
数据集压缩
classmethod squash(dataset_name, dataset_ids=None, dataset_project_name_pairs=None, output_url=None)
从数据集版本的压缩集合中生成一个新的数据集。 如果给出单个版本,它将压缩到根目录(即创建单个独立版本) 如果给出了一组版本,它将把这些版本的差异压缩成一个单一版本
-
参数
-
dataset_name (str ) – 新生成的压缩数据集的目标名称
-
dataset_ids (可选 [ 序列 [ 联合 [ str *, * 数据集 ] ] ] ) – 要压缩的数据集ID(或对象)列表。注意顺序很重要。 版本从第一个到最后一个合并。
-
dataset_project_name_pairs (可选 [ 序列 [ ( str *, * str ) ] ] ) – 要压缩的 (project_name, dataset_name) 对列表。 注意顺序很重要。版本从第一个到最后一个合并。
-
output_url (可选 [ str ] ) – 压缩数据集的目标存储位置(默认:文件服务器) 示例:s3://bucket/data, gs://bucket/data , azure://bucket/data , /mnt/share/data
-
-
返回类型
“数据集”
-
返回
新创建的数据集对象。
同步文件夹
sync_folder(local_path, dataset_path=None, verbose=False)
将数据集与本地文件夹同步。数据集从relative_base_folder(默认:数据集根目录)及其更深层次的目录与指定的本地路径同步。请注意,如果在同步时识别出远程文件已被修改,它将被添加为FileEntry,准备上传到ClearML服务器。此版本的文件被视为“较新”,在调用Dataset.get_local_copy()时,将下载此版本而不是存储在其远程地址的版本。
-
参数
-
local_path (Union [ Path *, * _Path *, * str ] ) – 要同步的本地文件夹(假设所有文件和递归)
-
dataset_path (Union [ Path *, * _Path *, * str ] ) – 要同步的目标数据集路径(默认为数据集的根目录)
-
verbose (bool ) – 如果为True,则在控制台打印添加/修改/删除的文件
-
-
返回类型
(int, int, int)
-
返回
删除的文件数量,修改/添加的文件数量
更新更改的文件
update_changed_files(num_files_added=None, num_files_modified=None, num_files_removed=None)
更新内部状态,跟踪添加、修改和删除的文件。
-
参数
-
num_files_added – 与父数据集相比添加的文件数量
-
num_files_modified – 与父数据集相比,具有相同名称但不同哈希值的文件数量
-
num_files_removed – 与父数据集相比,删除的文件数量
-
上传
upload()
开始文件上传,当所有文件上传完成后函数返回。
-
参数
-
show_progress – 如果为True,显示上传进度条
-
verbose – 如果为True,打印详细的进度报告
-
output_url – 压缩数据集的目标存储位置(默认:文件服务器) 示例:s3://bucket/data, gs://bucket/data , azure://bucket/data , /mnt/share/data
-
compression – 用于Zipped数据集文件的压缩算法(默认:ZIP_DEFLATED)
-
chunk_size – 压缩数据集的工件块大小(MB), 如果未提供(None),则使用默认块大小(512mb)。 如果提供-1,则使用单个zip工件用于整个数据集变更集(旧行为)
-
max_workers – 压缩和上传文件时要生成的线程数。
如果为None(默认),它将设置为:
-
1: 如果上传目的地是云提供商('s3', 'gs', 'azure')
-
逻辑核心数量:否则
-
-
retries (int ) – 在上传每个zip文件失败前的重试次数。如果为0,则不会重试上传。
-
preview – 如果为True(默认),数据集预览将上传并在UI中显示。
-
-
Improvement
如果上传失败(即至少有一个zip文件未能上传),则引发一个ValueError
-
返回类型
()
验证数据集哈希
verify_dataset_hash(local_copy_path=None, skip_hash=False, verbose=False)
验证当前数据集的副本与存储的哈希值是否一致
-
参数
-
local_copy_path (
Optional
[str
]) – 指定包含数据集副本的本地路径, 如果未提供,则使用缓存文件夹 -
skip_hash (
bool
) – 如果为True,跳过哈希检查,仅验证文件大小 -
verbose (
bool
) – 如果为True,则在测试数据集文件哈希时打印错误
-
-
返回类型
List
[str
] -
返回
哈希值不匹配的文件列表