ray.data.read_lance#

ray.data.read_lance(uri: str, *, columns: List[str] | None = None, filter: str | None = None, storage_options: Dict[str, str] | None = None, scanner_options: Dict[str, Any] | None = None, ray_remote_args: Dict[str, Any] | None = None, concurrency: int | None = None, override_num_blocks: int | None = None) Dataset[源代码]#

Lance 数据集 创建一个 Dataset

示例

>>> import ray
>>> ds = ray.data.read_lance( 
...     uri="./db_name.lance",
...     columns=["image", "label"],
...     filter="label = 2 AND text IS NOT NULL",
... )
参数:
  • uri – 要读取的 Lance 数据集的 URI。支持本地文件路径、S3 和 GCS。

  • columns – 要读取的列。默认情况下,读取所有列。

  • filter – Read 只返回符合过滤条件的行。默认情况下,不应用任何过滤器。

  • storage_options – 特定存储连接有意义的额外选项。这用于存储连接参数,如凭证、端点等。更多信息,请参阅 对象存储配置

  • scanner_options – 配置 LanceDataset.scanner() 方法的额外选项,例如 batch_size。更多信息,请参阅 LanceDB API 文档

  • ray_remote_args – 传递给读取任务中 remote() 的 kwargs。

  • concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

返回:

一个从 Lance 数据集中读取记录的 Dataset