GroupedData API#

GroupedData 对象由 groupby 调用返回:Dataset.groupby()

计算或描述性统计#

GroupedData.count

计算计数聚合。

GroupedData.max

计算分组最大值聚合。

GroupedData.mean

计算分组均值聚合。

GroupedData.min

计算分组最小值聚合。

GroupedData.std

计算分组标准差聚合。

GroupedData.sum

计算分组求和聚合。

函数应用#

GroupedData.aggregate

实现了一个基于累加器的聚合。

GroupedData.map_groups

将给定的函数应用于该数据集的每个记录组。

AggregateFn#

class ray.data.aggregate.AggregateFn(init: Callable[[KeyType], AggType], merge: Callable[[AggType, AggType], AggType], name: str, accumulate_row: Callable[[AggType, T], AggType] = None, accumulate_block: Callable[[AggType, pyarrow.Table | pandas.DataFrame], AggType] = None, finalize: Callable[[AggType], U] | None = None)[源代码]#

定义一个累加器风格的聚合函数。

将类型 T 的输入集合聚合为类型 U 的单个输出值。有关基于累加器的聚合的更多详细信息,请参阅 https://www.sigops.org/s/conferences/sosp/2009/papers/yu-sosp09.pdf

参数:
  • init – 这将为每个组调用一次以返回空累加器。例如,求和的空累加器为0。

  • merge – 这可能会被多次调用,每次调用都是为了将两个累加器合并为一个。

  • name – 聚合的名称。这将用作输出数据集中的列名。

  • accumulate_row – 这会在同一组的每一行调用一次。它将累加器和行合并,返回更新后的累加器。必须提供 accumulate_row 和 accumulate_block 中的一个。

  • accumulate_block – 这用于计算单个块的聚合,并且是 accumulate_row 的向量化替代方案。这将给出一个基础累加器和整个块,允许对块进行向量化累加。必须提供 accumulate_row 和 accumulate_block 中的一个。

  • finalize – 这被调用一次,以从完全合并的累加器中计算最终的聚合结果。