ray.data.Dataset.drop_columns#
- Dataset.drop_columns(cols: List[str], *, compute: str | None = None, concurrency: int | Tuple[int, int] | None = None, **ray_remote_args) Dataset [源代码]#
从数据集中删除一个或多个列。
示例
>>> import ray >>> ds = ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet") >>> ds.schema() Column Type ------ ---- sepal.length double sepal.width double petal.length double petal.width double variety string >>> ds.drop_columns(["variety"]).schema() Column Type ------ ---- sepal.length double sepal.width double petal.length double petal.width double
时间复杂度:O(数据集大小 / 并行度)
- 参数:
cols – 要删除的列名。如果任何名称不存在,则会引发异常。
compute – 此参数已弃用。请使用
concurrency
参数。concurrency – 要同时使用的 Ray 工作者的数量。对于一个固定大小的工作者池,大小为
n
,指定concurrency=n
。对于一个从m
到n
工作者的自动扩展工作者池,指定concurrency=(m, n)
。ray_remote_args – 从ray请求的额外资源需求(例如,num_gpus=1 用于为map任务请求GPU)。