DataIterator API#
数据迭代器#
- class ray.data.DataIterator[源代码]#
用于从
Dataset
读取记录的迭代器。对于数据集,每次迭代调用都代表了对数据集中所有项目的完整读取。
如果使用 Ray Train,每个训练器角色应该通过调用
ray.train.get_dataset_shard("train")
来获取自己的迭代器。示例
>>> import ray >>> ds = ray.data.range(5) >>> ds Dataset(num_rows=5, schema={id: int64}) >>> ds.iterator() DataIterator(Dataset(num_rows=5, schema={id: int64}))
PublicAPI (测试版): 此API目前处于测试阶段,在成为稳定版本之前可能会发生变化。
返回数据集上的批量可迭代对象。 |
|
返回数据集上 Torch 张量的批量可迭代对象。 |
|
执行并将此数据迭代器具体化到对象存储内存中。 |
|
返回一个包含执行时间信息的字符串。 |
|
返回此数据集上的 TF 数据集。 |