dask_expr._collection.DataFrame.sort_values
dask_expr._collection.DataFrame.sort_values¶
- DataFrame.sort_values(by: str | list[str], npartitions: int | None = None, ascending: bool | list[bool] = True, na_position: Union[Literal['first'], Literal['last']] = 'last', partition_size: float = 128000000.0, sort_function: collections.abc.Callable[[pandas.core.frame.DataFrame], pandas.core.frame.DataFrame] | None = None, sort_function_kwargs: collections.abc.Mapping[str, Any] | None = None, upsample: float = 1.0, ignore_index: bool | None = False, shuffle_method: str | None = None, **options)[源代码]¶
按单列对数据集进行排序。
对并行数据集进行排序需要昂贵的洗牌操作,通常不推荐。有关实现细节,请参见
set_index
。- 参数
- by: str 或 list[str]
要排序的列。
- npartitions: int, None, 或 ‘auto’
理想的输出分区数量。如果为 None,则使用与输入相同的分区数量。如果为 ‘auto’,则根据内存使用情况决定。
- ascending: bool, 可选
升序排序与降序排序。默认为 True。
- na_position: {‘last’, ‘first’}, 可选
如果设置为 ‘first’,则在开头放置 NaN;如果设置为 ‘last’,则在末尾放置 NaN。默认为 ‘last’。
- sort_function: 函数, 可选
用于在排序底层分区时使用的排序函数。如果为 None,则默认为
M.sort_values``(分区库的 ``sort_values
实现)。- sort_function_kwargs: dict, 可选
传递给分区排序函数的额外关键字参数。默认情况下,提供
by
、ascending
和na_position
。
示例
>>> df2 = df.sort_values('x')