ray.data.Dataset.randomize_block_顺序#

Dataset.randomize_block_order(*, seed: int | None = None) Dataset[源代码]#

随机打乱这个 Dataset

如果你将数据集 split() 分成多个分片,并且希望在不进行完全 random_shuffle() 的情况下随机化每个分片中的数据,这种方法很有用。

备注

此操作要求所有输入在对象存储中具体化,以便执行。

示例

>>> import ray
>>> ds = ray.data.range(100)
>>> ds.take(5)
[{'id': 0}, {'id': 1}, {'id': 2}, {'id': 3}, {'id': 4}]
>>> ds.randomize_block_order().take(5)  
{'id': 15}, {'id': 16}, {'id': 17}, {'id': 18}, {'id': 19}]
参数:

seed – 修复要使用的随机种子,否则将根据系统随机性选择一个。

返回:

块洗牌的 数据集