dask_expr._collection.DataFrame.sort_values

dask_expr._collection.DataFrame.sort_values¶

DataFrame.sort_values(by: str | list[str], npartitions: int | None = None, ascending: bool | list[bool] = True, na_position: Union[Literal['first'], Literal['last']] = 'last', partition_size: float = 128000000.0, sort_function: collections.abc.Callable[[pandas.core.frame.DataFrame], pandas.core.frame.DataFrame] | None = None, sort_function_kwargs: collections.abc.Mapping[str, Any] | None = None, upsample: float = 1.0, ignore_index: bool | None = False, shuffle_method: str | None = None, **options)[源代码]¶

按单列对数据集进行排序。

对并行数据集进行排序需要昂贵的洗牌操作，通常不推荐。有关实现细节，请参见 set_index。

参数

by: str 或 list[str]: 要排序的列。
npartitions: int, None, 或 ‘auto’: 理想的输出分区数量。如果为 None，则使用与输入相同的分区数量。如果为 ‘auto’，则根据内存使用情况决定。
ascending: bool, 可选: 升序排序与降序排序。默认为 True。
na_position: {‘last’, ‘first’}, 可选: 如果设置为 ‘first’，则在开头放置 NaN；如果设置为 ‘last’，则在末尾放置 NaN。默认为 ‘last’。
sort_function: 函数, 可选: 用于在排序底层分区时使用的排序函数。如果为 None，则默认为 M.sort_values``（分区库的 ``sort_values 实现）。
sort_function_kwargs: dict, 可选: 传递给分区排序函数的额外关键字参数。默认情况下，提供 by、ascending 和 na_position。

示例

>>> df2 = df.sort_values('x')  

dask_expr._collection.DataFrame.size

dask_expr._collection.DataFrame.squeeze