dask.dataframe.groupby.SeriesGroupBy.aggregate
dask.dataframe.groupby.SeriesGroupBy.aggregate¶
- SeriesGroupBy.aggregate(arg=None, split_every=None, split_out=1, shuffle_method=None, **kwargs)[源代码]¶
使用一个或多个指定的操作进行聚合
基于 pd.core.groupby.SeriesGroupBy.aggregate
- 参数
- 参数可调用对象、字符串、列表或字典,可选
聚合规范。接受的组合有:
可调用函数
字符串函数名称
函数列表和/或函数名称,例如
[np.sum, 'mean']
列名 -> 函数、函数名或此类列表的字典。
只有在使用命名聚合语法时才为None
- split_everyint, 可选
一次可以聚合的中间分区数量。默认值为8。如果您的中间分区可能较小(由于组数较少或初始分区大小较小),请考虑增加此数量以获得更好的性能。
- split_outint, 可选
输出分区数量。默认值为1。
- 洗牌布尔值或字符串,可选
是否使用基于洗牌的算法。也可以指定特定的算法名称(例如
"tasks"
或"p2p"
)。当split_out>1
且唯一组数量很大(高基数)时,基于洗牌的算法可能比shuffle=False
更高效。默认情况下,当split_out = 1
时为False
。当split_out > 1
时,它选择由 dask 配置系统中shuffle
选项设置的算法,如果没有设置则为"tasks"
。- kwargs: tuple 或 pd.NamedAgg, 可选
用于命名聚合,其中关键字是输出列名,值是元组,元组的第一个元素是输入列名,第二个元素是聚合函数。
pandas.NamedAgg
也可以用作值。要使用命名聚合语法,arg 必须设置为 None。