ray.data.from_spark#

ray.data.from_spark(df: pyspark.sql.DataFrame, *, parallelism: int | None = None, override_num_blocks: int | None = None) MaterializedDataset[源代码]#

Spark DataFrame 创建一个 Dataset

参数:
  • df – 一个 Spark DataFrame ,必须由 RayDP(Ray 上的 Spark)创建。

  • parallelism – 此参数已弃用。请使用 override_num_blocks 参数。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

返回:

一个 MaterializedDataset ,包含从 DataFrame 读取的行。