ray.data.Dataset.select_columns#
- Dataset.select_columns(cols: List[str], *, compute: str | ComputeStrategy = None, concurrency: int | Tuple[int, int] | None = None, **ray_remote_args) Dataset [源代码]#
从数据集中选择一个或多个列。
指定的列必须存在于数据集模式中。
示例
>>> import ray >>> ds = ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet") >>> ds.schema() Column Type ------ ---- sepal.length double sepal.width double petal.length double petal.width double variety string >>> ds.select_columns(["sepal.length", "sepal.width"]).schema() Column Type ------ ---- sepal.length double sepal.width double
时间复杂度:O(数据集大小 / 并行度)
- 参数:
cols – 要选择的列名。如果名称不在数据集模式中,则会引发异常。
compute – 此参数已弃用。请使用
concurrency
参数。concurrency – 要同时使用的 Ray 工作者的数量。对于一个固定大小的工作者池,大小为
n
,指定concurrency=n
。对于一个从m
到n
工作者的自动扩展工作者池,指定concurrency=(m, n)
。ray_remote_args – 从ray请求的额外资源需求(例如,num_gpus=1 用于为map任务请求GPU)。