ray.data.读取_delta_共享_表#

ray.data.read_delta_sharing_tables(url: str, *, limit: int | None = None, version: int | None = None, timestamp: str | None = None, json_predicate_hints: str | None = None, ray_remote_args: Dict[str, Any] | None = None, concurrency: int | None = None, override_num_blocks: int | None = None) Dataset[源代码]#

从 Delta Sharing 表中读取数据。Delta Sharing 项目 delta-io/delta-sharing

此函数从由URL指定的Delta Sharing表中读取数据。它支持多种选项,如限制行数、指定版本或时间戳,以及配置并发性。

在调用此函数之前,请确保URL格式正确,指向您要访问的Delta Sharing表。确保在工作目录中有一个有效的delta_share配置文件。

示例

import ray

ds = ray.data.read_delta_sharing_tables(
    url=f"your-profile.json#your-share-name.your-schema-name.your-table-name",
    limit=100000,
    version=1,
)
参数:
  • url – 格式为“<profile-文件路径>#<共享名称>.<模式名称>.<表名称>”的URL。示例可以在 delta-io/delta-sharing 找到。

  • limit – 一个非负整数。如果指定了该参数,则仅加载 limit 行。使用此可选参数来探索共享表,而无需将整个表加载到内存中。

  • version – 一个非负整数。加载指定版本的表快照。

  • timestamp – 一个时间戳,用于指定要读取的表的版本。

  • json_predicate_hints – 应用于表的谓词提示。更多详情请参见:delta-io/delta-sharing

  • ray_remote_args – 传递给读取任务中 remote() 的 kwargs。

  • concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或总输出块数。默认情况下,并发性是根据可用资源动态决定的。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

返回:

包含查询数据的 数据集

抛出:

ValueError – 如果URL格式不正确,或者Delta Sharing表连接有问题。

PublicAPI (alpha): 此API处于alpha阶段,可能在稳定之前发生变化。