ray.data.Dataset.select_columns#

Dataset.select_columns(cols: List[str], *, compute: str | ComputeStrategy = None, concurrency: int | Tuple[int, int] | None = None, **ray_remote_args) Dataset[源代码]#

从数据集中选择一个或多个列。

指定的列必须存在于数据集模式中。

示例

>>> import ray
>>> ds = ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet")
>>> ds.schema()
Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string
>>> ds.select_columns(["sepal.length", "sepal.width"]).schema()
Column        Type
------        ----
sepal.length  double
sepal.width   double

时间复杂度:O(数据集大小 / 并行度)

参数:
  • cols – 要选择的列名。如果名称不在数据集模式中,则会引发异常。

  • compute – 此参数已弃用。请使用 concurrency 参数。

  • concurrency – 要同时使用的 Ray 工作者的数量。对于一个固定大小的工作者池,大小为 n,指定 concurrency=n。对于一个从 mn 工作者的自动扩展工作者池,指定 concurrency=(m, n)

  • ray_remote_args – 从ray请求的额外资源需求(例如,num_gpus=1 用于为map任务请求GPU)。