ray.data.Dataset.random_shuffle#

Dataset.random_shuffle(*, seed: int | None = None, num_blocks: int | None = None, **ray_remote_args) Dataset[源代码]#

随机打乱此 数据集 的行。

小技巧

这种方法可能会很慢。为了获得更好的性能,尝试 使用洗牌迭代批次。此外,请参阅 优化洗牌

备注

此操作要求所有输入在对象存储中具体化,以便执行。

示例

>>> import ray
>>> ds = ray.data.range(100)
>>> ds.random_shuffle().take(3)  
{'id': 41}, {'id': 21}, {'id': 92}]
>>> ds.random_shuffle(seed=42).take(3)  
{'id': 77}, {'id': 21}, {'id': 63}]

时间复杂度:O(数据集大小 / 并行度)

参数:

seed – 修复要使用的随机种子,否则将根据系统随机性选择一个。

返回:

打乱后的 数据集