dask_expr._collection.DataFrame.shuffle

dask_expr._collection.DataFrame.shuffle

DataFrame.shuffle(on: str | list | no_default = _NoDefault.no_default, ignore_index: bool = False, npartitions: int | None = None, shuffle_method: str | None = None, on_index: bool = False, **options)

将 DataFrame 重新排列为新的分区

使用 on 的哈希值将行映射到输出分区。在此操作之后,具有相同 on 值的行将在同一分区中。

参数
字符串、字符串列表,或 Series、Index、DataFrame

要进行洗牌的列名。

忽略索引可选的

是否忽略索引。默认值为 False

npartitions可选的

输出分区数量。默认情况下,分区数量将被保留。

shuffle_method可选的

期望的洗牌方法。默认在优化时选择。

on_indexbool, 默认 False

是否在索引上进行洗牌。与 ‘on’ 互斥。如果未提供 ‘on’,则设置为 True

**选项可选的

算法特定的选项。

注释

这不会保留有意义的索引/分区方案。如果在并行处理中这样做,这不是确定性的。

示例

>>> df = df.shuffle(df.columns[0])