ray.data.range_tensor#

ray.data.range_tensor(n: int, *, shape: Tuple = (1,), parallelism: int = -1, concurrency: int | None = None, override_num_blocks: int | None = None) Dataset[源代码]#

从范围 [0…n] 创建一个具有指定形状的 Dataset 张量。

此功能允许轻松创建用于测试或基准测试 Ray Data 的合成张量数据集。

示例

>>> import ray
>>> ds = ray.data.range_tensor(1000, shape=(2, 2))
>>> ds
Dataset(num_rows=1000, schema={data: numpy.ndarray(shape=(2, 2), dtype=int64)})
>>> ds.map_batches(lambda row: {"data": row["data"] * 2}).take(2)
[{'data': array([[0, 0],
       [0, 0]])}, {'data': array([[2, 2],
       [2, 2]])}]
参数:
  • n – 张量记录范围的上限。

  • shape – 数据集中每个张量的形状。

  • parallelism – 此参数已弃用。请使用 override_num_blocks 参数。

  • concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

返回:

一个从范围0到n生成张量数据的 Dataset

参见

range()

调用此方法以创建整数数据的合成数据集。