Skip to main content

数据集

class datasetversion.Dataset()

数据集表示。

用于管理数据集及其版本

warning

不要直接实例化。 请使用Dataset.get或Dataset.create方法代替。


id

属性ID

数据集的ID。

  • 返回类型

    str


名称

属性名称

数据集的名称。

  • 返回类型

    str


项目

属性项目

数据集的项目ID。如果在创建数据集时未指定项目,则可能为None

  • 返回类型

    Optional[str]


数据集创建

classmethod create(dataset_name, comment=None, tags=None, raise_if_exists=False, dataset_project=None)

在系统中创建一个新的数据集,并为其返回一个Dataset对象。

  • 参数

    • dataset_name (str ) – 新数据集的名称。

    • 注释 (str ) – 用于描述数据集的自由文本

    • 标签 (列表 ) – 用于分类数据集的标签(短字符串)列表。如果数据集已经存在,这些标签将被添加到其标签列表中。

    • raise_if_exists (bool ) – 如果为False(默认值)并且存在名为dataset_name的数据集,则返回现有的Dataset。如果为True并且存在名为dataset_name的数据集,则抛出ValueError异常。

    • dataset_project (str) – 新创建数据集的项目名称。

  • 返回类型

    ForwardRef

  • 返回

    为新创建的数据集创建一个新的Dataset对象。


数据集.获取

classmethod get(dataset_id=None, dataset_name=None, dataset_project=None)

返回现有数据集的Dataset对象。

  • 参数

    • dataset_id (Optional[str]) – 数据集的ID

    • dataset_name (Optional[str]) – 数据集的名称。

    • dataset_project (Optional[str]) – 数据集的项目。

    info

    dataset_id 和 dataset_name 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。

  • 返回类型

    ForwardRef

  • 返回

    为数据集创建一个新的Dataset对象。 如果设置了dataset_name并且有多个 具有该名称的数据集,则返回任意一个。


数据集.删除

classmethod delete(dataset_id=None, dataset_name=None, delete_all_versions=False, force=False, delete_sources=False, show_progress=True, dataset_project=None)

从系统中删除一个数据集

如果存在多个名为 dataset_name 的数据集,删除任意一个。 请注意,在这种情况下,delete_sources 没有效果。

info

dataset_id 和 dataset_name 是互斥的。将两者都设置为非空值将引发 UsageError 异常。

  • 参数

    • dataset_id (str ) – 数据集的ID。

    • dataset_name (str ) – 数据集的名称。

    • delete_all_versions (bool ) – 如果为 True,则删除数据集及其所有版本。如果为 False,则期望数据集没有版本。如果有,则引发异常。默认值:False

    • force (bool ) – 如果为 True,并且 delete_all_versionsTrue,则删除已发布的版本。如果为 False,并且 delete_all_versionsTrue,则在数据集中存在已发布版本时抛出异常。 如果 delete_all_versionsFalse,则此参数 无效。默认值:False

    • delete_sources (bool) – 删除与数据集中已删除帧相关联的源。 支持的源位置包括:s3、gs 和 azure。如果无法与云提供商建立连接或源删除失败,操作将中止。 如果 delete_all_versions 为 False,则忽略此参数。

    • show_progress (bool ) – 如果为True,删除源时显示进度条。如果为False,则禁用进度条。如果delete_sources为False,则忽略此参数。 请注意,需要安装tqdm才能使此功能生效。

    • dataset_project (str ) – 数据集的项目名称。

  • 返回类型

    None


create_version

create_version(版本名称, 描述=None, 父版本ID=None, 父版本名称=None, 如果存在则抛出异常=False, 自动上传目标=None, 本地数据集根路径=None)

创建并返回此数据集的新DatasetVersion

info

parent_version_ids 和 parent_version_names 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。

  • 参数

    • version_name (str ) – 新版本名称。

    • 描述 (str ) – 用于描述版本的自由文本。

    • parent_version_ids (列表 ) – 新版本父版本的ID列表。所有ID必须是此数据集中现有版本的ID。目前仅支持单个父版本。这是一个为未来兼容性准备的列表。

    • parent_version_names (list ) – 新版本父级名称的列表。所有名称必须是此数据集中现有版本的名称。目前仅支持单个父级版本。这是一个用于未来兼容性的列表。

    • raise_if_exists (bool ) – 如果为 False(默认值)并且此数据集中存在名为 version_name 的版本,则返回该版本。 如果为 True,则引发 ValueError 异常。

    • auto_upload_destination (str ) – 如果指定了任何由SingleFrame/FrameGroup链接的本地文件,将自动上传到目标存储。

    • 路径 **] ** local_dataset_root_path (联合 [ 字符串 , ) – 如果提供了auto_upload_destination,则为必需。 它应指向所有本地源文件的公共文件夹

    • local_dataset_root_path (可选 [ 联合 [ str *, * pathlib2.Path ] ] ) –

  • 返回类型

    ForwardRef

  • 返回

    一个新的DatasetVersion对象,名称为 version_name,位于此数据集中。


获取版本

get_version(version_id=None, version_name=None, auto_upload_destination=None, local_dataset_root_path=None, raise_on_multiple=False)

返回此数据集中某个版本的DatasetVersion对象。

info

version_id 和 version_name 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。

  • 参数

    • version_id (str ) – 要获取的版本的ID。

    • version_name (str ) – 要获取的版本名称。 如果有多个版本具有该名称,则返回任意一个。

    • auto_upload_destination (str ) – 如果指定了任何由SingleFrame/FrameGroup链接的本地文件,将自动上传到目标存储。

    • 路径 **] ** local_dataset_root_path (联合 [ 字符串 , ) – 如果提供了auto_upload_destination,则为必需。 它应指向所有本地源文件的公共文件夹

    • raise_on_multiple (bool ) – 如果找到多个版本,则引发错误

    • local_dataset_root_path (可选 [ 联合 [ str *, * pathlib2.Path ] ] ) –

  • 返回类型

    DatasetVersion

  • 返回

    从该数据集中获取所需版本的DatasetVersion对象。


获取版本

get_versions(only_published=False)

返回数据集的所有版本列表

  • 参数

    only_published (bool ) – 如果为 True,则仅返回已发布的版本。 如果为 False,则返回所有版本。

  • 返回类型

    List[DatasetVersion]

  • 返回

    此数据集中所有版本的DatasetVersion对象列表。


delete_version

delete_version(version_id=None, version_name=None, force=False, delete_sources=False, show_progress=True)

从此数据集中删除一个版本。

info

version_id 和 version_name 是互斥的。将两者都设置为非空值将会引发 UsageError 异常。

  • 参数

    • version_id (str ) – 要删除的版本的ID。

    • version_name (str ) – 要删除的版本名称。如果此数据集中存在多个具有此名称的版本,则删除任意一个。

    • force (bool ) – 如果为 True,即使版本已发布也会删除。 默认值:False

    • delete_sources (bool) – 删除与数据集中已删除帧相关联的源。 支持的源位置包括:s3、gs 和 azure。如果无法与云提供商建立连接或源删除失败,操作将中止。 如果找到多个具有相同 version_name 的版本,则忽略此参数。

    • show_progress (bool ) – 如果为True,删除源时显示进度条。如果为False,则禁用进度条。如果delete_sources为False,则忽略此参数。 请注意,需要安装tqdm才能使此功能生效。

  • 返回类型

    None


添加标签

添加标签(tags)

添加标签(短字符串)以对数据集进行分类。旧标签不会被删除

  • 参数

    标签 (Union[str, Sequence[str]]) – 要添加到数据集中的标签

  • 返回类型

    None


remove_tags

remove_tags(tags=None)

从数据集中移除标签

  • 参数

    tags (Union[str, List[str], None]) – 要从数据集中移除的标签。如果为 None(默认),则移除所有标签

  • 返回类型

    None


获取数据集网页

get_dataset_webpage()

返回超数据集的网页地址。 例如:https://your_web_server/datasets/73757bd349634b86ae4b66ef5ed412df

  • 返回类型

    str

  • 返回

    http/s URL 链接