GroupedData API#
GroupedData 对象由 groupby 调用返回:Dataset.groupby()
。
计算或描述性统计#
计算计数聚合。 |
|
计算分组最大值聚合。 |
|
计算分组均值聚合。 |
|
计算分组最小值聚合。 |
|
计算分组标准差聚合。 |
|
计算分组求和聚合。 |
函数应用#
实现了一个基于累加器的聚合。 |
|
将给定的函数应用于该数据集的每个记录组。 |
AggregateFn#
- class ray.data.aggregate.AggregateFn(init: Callable[[KeyType], AggType], merge: Callable[[AggType, AggType], AggType], name: str, accumulate_row: Callable[[AggType, T], AggType] = None, accumulate_block: Callable[[AggType, pyarrow.Table | pandas.DataFrame], AggType] = None, finalize: Callable[[AggType], U] | None = None)[源代码]#
定义一个累加器风格的聚合函数。
将类型 T 的输入集合聚合为类型 U 的单个输出值。有关基于累加器的聚合的更多详细信息,请参阅 https://www.sigops.org/s/conferences/sosp/2009/papers/yu-sosp09.pdf。
- 参数:
init – 这将为每个组调用一次以返回空累加器。例如,求和的空累加器为0。
merge – 这可能会被多次调用,每次调用都是为了将两个累加器合并为一个。
name – 聚合的名称。这将用作输出数据集中的列名。
accumulate_row – 这会在同一组的每一行调用一次。它将累加器和行合并,返回更新后的累加器。必须提供 accumulate_row 和 accumulate_block 中的一个。
accumulate_block – 这用于计算单个块的聚合,并且是 accumulate_row 的向量化替代方案。这将给出一个基础累加器和整个块,允许对块进行向量化累加。必须提供 accumulate_row 和 accumulate_block 中的一个。
finalize – 这被调用一次,以从完全合并的累加器中计算最终的聚合结果。