dask.dataframe.groupby.DataFrameGroupBy.aggregate

dask.dataframe.groupby.DataFrameGroupBy.aggregate

DataFrameGroupBy.aggregate(arg=None, split_every=None, split_out=1, shuffle_method=None, **kwargs)[源代码]

使用一个或多个指定的操作进行聚合

基于 pd.core.groupby.DataFrameGroupBy.aggregate

参数
参数可调用对象、字符串、列表或字典,可选

聚合规范。接受的组合有:

  • 可调用函数

  • 字符串函数名称

  • 函数列表和/或函数名称,例如 [np.sum, 'mean']

  • 列名 -> 函数、函数名或此类列表的字典。

  • 只有在使用命名聚合语法时才为None

split_everyint, 可选

一次可以聚合的中间分区数量。默认值为8。如果您的中间分区可能较小(由于组数较少或初始分区大小较小),请考虑增加此数量以获得更好的性能。

split_outint, 可选

输出分区数量。默认值为1。

洗牌布尔值或字符串,可选

是否应使用基于洗牌的算法。也可以指定特定的算法名称(例如 "tasks""p2p")。当 split_out>1 且唯一组数量较大(高基数)时,基于洗牌的算法可能比 shuffle=False 更高效。当 split_out = 1 时,默认值为 False。当 split_out > 1 时,它选择由 dask 配置系统中的 shuffle 选项设置的算法,如果未设置任何内容,则选择 "tasks"

kwargs: tuple 或 pd.NamedAgg, 可选

用于命名聚合,其中关键字是输出列名,值是元组,元组的第一个元素是输入列名,第二个元素是聚合函数。pandas.NamedAgg 也可以用作值。要使用命名聚合语法,arg 必须设置为 None。