ray.data.Dataset.randomize_block_顺序#
- Dataset.randomize_block_order(*, seed: int | None = None) Dataset [源代码]#
-
如果你将数据集
split()
分成多个分片,并且希望在不进行完全random_shuffle()
的情况下随机化每个分片中的数据,这种方法很有用。备注
此操作要求所有输入在对象存储中具体化,以便执行。
示例
>>> import ray >>> ds = ray.data.range(100) >>> ds.take(5) [{'id': 0}, {'id': 1}, {'id': 2}, {'id': 3}, {'id': 4}] >>> ds.randomize_block_order().take(5) {'id': 15}, {'id': 16}, {'id': 17}, {'id': 18}, {'id': 19}]
- 参数:
seed – 修复要使用的随机种子,否则将根据系统随机性选择一个。
- 返回:
块洗牌的
数据集
。