Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.data.from_spark#

ray.data.from_spark(df: pyspark.sql.DataFrame, *, parallelism: int | None = None, override_num_blocks: int | None = None) → MaterializedDataset[源代码]#

从 Spark DataFrame 创建一个 Dataset。

参数:

df – 一个 Spark DataFrame ，必须由 RayDP（Ray 上的 Spark）创建。
parallelism – 此参数已弃用。请使用 override_num_blocks 参数。
override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下，输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下，您不应手动设置此值。

返回:

一个 MaterializedDataset ，包含从 DataFrame 读取的行。

优云智算