ray.data.range#

ray.data.range(n: int, *, parallelism: int = -1, concurrency: int | None = None, override_num_blocks: int | None = None) Dataset[源代码]#

从一个整数范围 [0..n) 创建一个 Dataset

此功能允许轻松创建用于测试或基准测试 Ray Data 的合成数据集。

示例

>>> import ray
>>> ds = ray.data.range(10000)
>>> ds
Dataset(num_rows=10000, schema={id: int64})
>>> ds.map(lambda row: {"id": row["id"] * 2}).take(4)
[{'id': 0}, {'id': 2}, {'id': 4}, {'id': 6}]
参数:
  • n – 整数范围的上限。

  • parallelism – 此参数已弃用。请使用 override_num_blocks 参数。

  • concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

返回:

一个生成从范围 0 到 n 的整数的 Dataset

参见

range_tensor()

调用此方法以创建张量数据的合成数据集。