DataIterator API#

数据迭代器#

class ray.data.DataIterator[源代码]#

用于从 Dataset 读取记录的迭代器。

对于数据集,每次迭代调用都代表了对数据集中所有项目的完整读取。

如果使用 Ray Train,每个训练器角色应该通过调用 ray.train.get_dataset_shard("train") 来获取自己的迭代器。

示例

>>> import ray
>>> ds = ray.data.range(5)
>>> ds
Dataset(num_rows=5, schema={id: int64})
>>> ds.iterator()
DataIterator(Dataset(num_rows=5, schema={id: int64}))

PublicAPI (测试版): 此API目前处于测试阶段,在成为稳定版本之前可能会发生变化。

DataIterator.iter_batches

返回数据集上的批量可迭代对象。

DataIterator.iter_torch_batches

返回数据集上 Torch 张量的批量可迭代对象。

DataIterator.materialize

执行并将此数据迭代器具体化到对象存储内存中。

DataIterator.stats

返回一个包含执行时间信息的字符串。

DataIterator.to_tf

返回此数据集上的 TF 数据集。