ray.data.from_spark#
- ray.data.from_spark(df: pyspark.sql.DataFrame, *, parallelism: int | None = None, override_num_blocks: int | None = None) MaterializedDataset[源代码]#
从 Spark DataFrame 创建一个
Dataset。- 参数:
df – 一个 Spark DataFrame ,必须由 RayDP(Ray 上的 Spark)创建。
parallelism – 此参数已弃用。请使用
override_num_blocks参数。override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。
- 返回:
一个
MaterializedDataset,包含从 DataFrame 读取的行。