ray.data.range_tensor#
- ray.data.range_tensor(n: int, *, shape: Tuple = (1,), parallelism: int = -1, concurrency: int | None = None, override_num_blocks: int | None = None) Dataset [源代码]#
从范围 [0…n] 创建一个具有指定形状的
Dataset
张量。此功能允许轻松创建用于测试或基准测试 Ray Data 的合成张量数据集。
示例
>>> import ray >>> ds = ray.data.range_tensor(1000, shape=(2, 2)) >>> ds Dataset(num_rows=1000, schema={data: numpy.ndarray(shape=(2, 2), dtype=int64)}) >>> ds.map_batches(lambda row: {"data": row["data"] * 2}).take(2) [{'data': array([[0, 0], [0, 0]])}, {'data': array([[2, 2], [2, 2]])}]
- 参数:
n – 张量记录范围的上限。
shape – 数据集中每个张量的形状。
parallelism – 此参数已弃用。请使用
override_num_blocks
参数。concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。
override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。
- 返回:
一个从范围0到n生成张量数据的
Dataset
。
参见
range()
调用此方法以创建整数数据的合成数据集。