ray.data.Dataset.random_shuffle#

Dataset.random_shuffle(*, seed: int | None = None, num_blocks: int | None = None, **ray_remote_args) → Dataset[源代码]#

随机打乱此 数据集 的行。

小技巧

这种方法可能会很慢。为了获得更好的性能，尝试使用洗牌迭代批次。此外，请参阅优化洗牌。

备注

此操作要求所有输入在对象存储中具体化，以便执行。

示例

>>> import ray
>>> ds = ray.data.range(100)
>>> ds.random_shuffle().take(3)  
{'id': 41}, {'id': 21}, {'id': 92}]
>>> ds.random_shuffle(seed=42).take(3)  
{'id': 77}, {'id': 21}, {'id': 63}]

时间复杂度：O(数据集大小 / 并行度)

参数:: seed – 修复要使用的随机种子，否则将根据系统随机性选择一个。
返回:: 打乱后的 数据集。