dask_expr._collection.DataFrame.sort_values

dask_expr._collection.DataFrame.sort_values

DataFrame.sort_values(by: str | list[str], npartitions: int | None = None, ascending: bool | list[bool] = True, na_position: Union[Literal['first'], Literal['last']] = 'last', partition_size: float = 128000000.0, sort_function: collections.abc.Callable[[pandas.core.frame.DataFrame], pandas.core.frame.DataFrame] | None = None, sort_function_kwargs: collections.abc.Mapping[str, Any] | None = None, upsample: float = 1.0, ignore_index: bool | None = False, shuffle_method: str | None = None, **options)[源代码]

按单列对数据集进行排序。

对并行数据集进行排序需要昂贵的洗牌操作,通常不推荐。有关实现细节,请参见 set_index

参数
by: str 或 list[str]

要排序的列。

npartitions: int, None, 或 ‘auto’

理想的输出分区数量。如果为 None,则使用与输入相同的分区数量。如果为 ‘auto’,则根据内存使用情况决定。

ascending: bool, 可选

升序排序与降序排序。默认为 True。

na_position: {‘last’, ‘first’}, 可选

如果设置为 ‘first’,则在开头放置 NaN;如果设置为 ‘last’,则在末尾放置 NaN。默认为 ‘last’。

sort_function: 函数, 可选

用于在排序底层分区时使用的排序函数。如果为 None,则默认为 M.sort_values``(分区库的 ``sort_values 实现)。

sort_function_kwargs: dict, 可选

传递给分区排序函数的额外关键字参数。默认情况下,提供 byascendingna_position

示例

>>> df2 = df.sort_values('x')