dask_expr._groupby.SeriesGroupBy.aggregate

dask_expr._groupby.SeriesGroupBy.aggregate

SeriesGroupBy.aggregate(arg=None, split_every=8, split_out=None, shuffle_method=None, **kwargs)

使用一个或多个指定的操作进行聚合

基于 pd.core.groupby.DataFrameGroupBy.agg

参数
参数可调用对象、字符串、列表或字典,可选

聚合规范。接受的组合有:

  • 可调用函数

  • 字符串函数名称

  • 函数列表和/或函数名称,例如 [np.sum, 'mean']

  • 列名 -> 函数、函数名或此类列表的字典。

  • 只有在使用命名聚合语法时才为None

split_everyint, 可选

一次可以聚合的中间分区数量。默认值为8。如果您的中间分区可能较小(由于组数较少或初始分区大小较小),请考虑增加此数量以获得更好的性能。

split_outint, 可选

输出分区数量。默认值为1。

洗牌布尔值或字符串,可选

是否使用基于洗牌的算法。也可以指定特定的算法名称(例如 "tasks""p2p")。当 split_out>1 且唯一组数量很大(高基数)时,基于洗牌的算法可能比 shuffle=False 更高效。默认情况下,当 split_out = 1 时为 False。当 split_out > 1 时,它选择由 dask 配置系统中 shuffle 选项设置的算法,如果没有设置则为 "tasks"

kwargs: tuple 或 pd.NamedAgg, 可选

用于命名聚合,其中关键字是输出列名,值是元组,元组的第一个元素是输入列名,第二个元素是聚合函数。pandas.NamedAgg 也可以用作值。要使用命名聚合语法,arg 必须设置为 None。