数据集
class datasetversion.Dataset()
数据集表示。
用于管理数据集及其版本
不要直接实例化。 请使用Dataset.get或Dataset.create方法代替。
id
属性ID
数据集的ID。
-
返回类型
str
名称
属性名称
数据集的名称。
-
返回类型
str
项目
属性项目
数据集的项目ID。如果在创建数据集时未指定项目,则可能为None
-
返回类型
Optional
[str
]
数据集创建
classmethod create(dataset_name, comment=None, tags=None, raise_if_exists=False, dataset_project=None)
在系统中创建一个新的数据集,并为其返回一个Dataset
对象。
-
参数
-
dataset_name (str ) – 新数据集的名称。
-
注释 (str ) – 用于描述数据集的自由文本
-
标签 (列表 ) – 用于分类数据集的标签(短字符串)列表。如果数据集已经存在,这些标签将被添加到其标签列表中。
-
raise_if_exists (bool ) – 如果为False(默认值)并且存在名为
dataset_name
的数据集,则返回现有的Dataset
。如果为True并且存在名为dataset_name
的数据集,则抛出ValueError
异常。 -
dataset_project (str) – 新创建数据集的项目名称。
-
-
返回类型
ForwardRef
-
返回
为新创建的数据集创建一个新的
Dataset
对象。
数据集.获取
classmethod get(dataset_id=None, dataset_name=None, dataset_project=None)
返回现有数据集的Dataset
对象。
-
参数
-
dataset_id (
Optional
[str
]) – 数据集的ID -
dataset_name (
Optional
[str
]) – 数据集的名称。 -
dataset_project (
Optional
[str
]) – 数据集的项目。
infodataset_id 和 dataset_name 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。
-
-
返回类型
ForwardRef
-
返回
为数据集创建一个新的
Dataset
对象。 如果设置了dataset_name
并且有多个 具有该名称的数据集,则返回任意一个。
数据集.删除
classmethod delete(dataset_id=None, dataset_name=None, delete_all_versions=False, force=False, delete_sources=False, show_progress=True, dataset_project=None)
从系统中删除一个数据集
如果存在多个名为 dataset_name 的数据集,删除任意一个。
请注意,在这种情况下,delete_sources
没有效果。
dataset_id 和 dataset_name 是互斥的。将两者都设置为非空值将引发 UsageError 异常。
-
参数
-
dataset_id (str ) – 数据集的ID。
-
dataset_name (str ) – 数据集的名称。
-
delete_all_versions (bool ) – 如果为
True
,则删除数据集及其所有版本。如果为False
,则期望数据集没有版本。如果有,则引发异常。默认值:False
。 -
force (bool ) – 如果为
True
,并且delete_all_versions
为True
,则删除已发布的版本。如果为False
,并且delete_all_versions
为True
,则在数据集中存在已发布版本时抛出异常。 如果delete_all_versions
为False
,则此参数 无效。默认值:False
-
delete_sources (bool) – 删除与数据集中已删除帧相关联的源。 支持的源位置包括:s3、gs 和 azure。如果无法与云提供商建立连接或源删除失败,操作将中止。 如果
delete_all_versions
为 False,则忽略此参数。 -
show_progress (bool ) – 如果为True,删除源时显示进度条。如果为False,则禁用进度条。如果
delete_sources
为False,则忽略此参数。 请注意,需要安装tqdm才能使此功能生效。 -
dataset_project (str ) – 数据集的项目名称。
-
-
返回类型
None
create_version
create_version(版本名称, 描述=None, 父版本ID=None, 父版本名称=None, 如果存在则抛出异常=False, 自动上传目标=None, 本地数据集根路径=None)
创建并返回此数据集的新DatasetVersion
。
parent_version_ids 和 parent_version_names 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。
-
参数
-
version_name (str ) – 新版本名称。
-
描述 (str ) – 用于描述版本的自由文本。
-
parent_version_ids (列表 ) – 新版本父版本的ID列表。所有ID必须是此数据集中现有版本的ID。目前仅支持单个父版本。这是一个为未来兼容性准备的列表。
-
parent_version_names (list ) – 新版本父级名称的列表。所有名称必须是此数据集中现有版本的名称。目前仅支持单个父级版本。这是一个用于未来兼容性的列表。
-
raise_if_exists (bool ) – 如果为
False
(默认值)并且此数据集中存在名为version_name
的版本,则返回该版本。 如果为True
,则引发ValueError
异常。 -
auto_upload_destination (str ) – 如果指定了任何由SingleFrame/FrameGroup链接的本地文件,将自动上传到目标存储。
-
路径 **] ** local_dataset_root_path (联合 [ 字符串 , ) – 如果提供了
auto_upload_destination
,则为必需。 它应指向所有本地源文件的公共文件夹 -
local_dataset_root_path (可选 [ 联合 [ str *, * pathlib2.Path ] ] ) –
-
-
返回类型
ForwardRef
-
返回
一个新的
DatasetVersion
对象,名称为version_name
,位于此数据集中。
获取版本
get_version(version_id=None, version_name=None, auto_upload_destination=None, local_dataset_root_path=None, raise_on_multiple=False)
返回此数据集中某个版本的DatasetVersion
对象。
version_id 和 version_name 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。
-
参数
-
version_id (str ) – 要获取的版本的ID。
-
version_name (str ) – 要获取的版本名称。 如果有多个版本具有该名称,则返回任意一个。
-
auto_upload_destination (str ) – 如果指定了任何由SingleFrame/FrameGroup链接的本地文件,将自动上传到目标存储。
-
路径 **] ** local_dataset_root_path (联合 [ 字符串 , ) – 如果提供了
auto_upload_destination
,则为必需。 它应指向所有本地源文件的公共文件夹 -
raise_on_multiple (bool ) – 如果找到多个版本,则引发错误
-
local_dataset_root_path (可选 [ 联合 [ str *, * pathlib2.Path ] ] ) –
-
-
返回类型
-
返回
从该数据集中获取所需版本的
DatasetVersion
对象。
获取版本
get_versions(only_published=False)
返回数据集的所有版本列表
-
参数
only_published (bool ) – 如果为
True
,则仅返回已发布的版本。 如果为False
,则返回所有版本。 -
返回类型
List
[DatasetVersion
] -
返回
此数据集中所有版本的
DatasetVersion
对象列表。
delete_version
delete_version(version_id=None, version_name=None, force=False, delete_sources=False, show_progress=True)
从此数据集中删除一个版本。
version_id 和 version_name 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。
-
参数
-
version_id (str ) – 要删除的版本的ID。
-
version_name (str ) – 要删除的版本名称。如果此数据集中存在多个具有此名称的版本,则删除任意一个。
-
force (bool ) – 如果为
True
,即使版本已发布也会删除。 默认值:False
。 -
delete_sources (bool) – 删除与数据集中已删除帧相关联的源。 支持的源位置包括:s3、gs 和 azure。如果无法与云提供商建立连接或源删除失败,操作将中止。 如果找到多个具有相同
version_name
的版本,则忽略此参数。 -
show_progress (bool ) – 如果为True,删除源时显示进度条。如果为False,则禁用进度条。如果
delete_sources
为False,则忽略此参数。 请注意,需要安装tqdm才能使此功能生效。
-
-
返回类型
None
添加标签
添加标签(tags)
添加标签(短字符串)以对数据集进行分类。旧标签不会被删除
-
参数
标签 (
Union
[str
,Sequence
[str
]]) – 要添加到数据集中的标签 -
返回类型
None