dask_expr._collection.DataFrame.shuffle
dask_expr._collection.DataFrame.shuffle¶
- DataFrame.shuffle(on: str | list | no_default = _NoDefault.no_default, ignore_index: bool = False, npartitions: int | None = None, shuffle_method: str | None = None, on_index: bool = False, **options)¶
将 DataFrame 重新排列为新的分区
使用 on 的哈希值将行映射到输出分区。在此操作之后,具有相同 on 值的行将在同一分区中。
- 参数
- 开字符串、字符串列表,或 Series、Index、DataFrame
要进行洗牌的列名。
- 忽略索引可选的
是否忽略索引。默认值为
False
。- npartitions可选的
输出分区数量。默认情况下,分区数量将被保留。
- shuffle_method可选的
期望的洗牌方法。默认在优化时选择。
- on_indexbool, 默认 False
是否在索引上进行洗牌。与 ‘on’ 互斥。如果未提供 ‘on’,则设置为
True
。- **选项可选的
算法特定的选项。
注释
这不会保留有意义的索引/分区方案。如果在并行处理中这样做,这不是确定性的。
示例
>>> df = df.shuffle(df.columns[0])