ray.data.read_lance#
- ray.data.read_lance(uri: str, *, columns: List[str] | None = None, filter: str | None = None, storage_options: Dict[str, str] | None = None, scanner_options: Dict[str, Any] | None = None, ray_remote_args: Dict[str, Any] | None = None, concurrency: int | None = None, override_num_blocks: int | None = None) Dataset [源代码]#
-
示例
>>> import ray >>> ds = ray.data.read_lance( ... uri="./db_name.lance", ... columns=["image", "label"], ... filter="label = 2 AND text IS NOT NULL", ... )
- 参数:
uri – 要读取的 Lance 数据集的 URI。支持本地文件路径、S3 和 GCS。
columns – 要读取的列。默认情况下,读取所有列。
filter – Read 只返回符合过滤条件的行。默认情况下,不应用任何过滤器。
storage_options – 特定存储连接有意义的额外选项。这用于存储连接参数,如凭证、端点等。更多信息,请参阅 对象存储配置。
scanner_options – 配置
LanceDataset.scanner()
方法的额外选项,例如batch_size
。更多信息,请参阅 LanceDB API 文档。ray_remote_args – 传递给读取任务中
remote()
的 kwargs。concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。
override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。
- 返回:
一个从 Lance 数据集中读取记录的
Dataset
。