ray.data.Dataset.drop_columns#

Dataset.drop_columns(cols: List[str], *, compute: str | None = None, concurrency: int | Tuple[int, int] | None = None, **ray_remote_args) Dataset[源代码]#

从数据集中删除一个或多个列。

示例

>>> import ray
>>> ds = ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet")
>>> ds.schema()
Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string
>>> ds.drop_columns(["variety"]).schema()
Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double

时间复杂度:O(数据集大小 / 并行度)

参数:
  • cols – 要删除的列名。如果任何名称不存在,则会引发异常。

  • compute – 此参数已弃用。请使用 concurrency 参数。

  • concurrency – 要同时使用的 Ray 工作者的数量。对于一个固定大小的工作者池,大小为 n,指定 concurrency=n。对于一个从 mn 工作者的自动扩展工作者池,指定 concurrency=(m, n)

  • ray_remote_args – 从ray请求的额外资源需求(例如,num_gpus=1 用于为map任务请求GPU)。