ray.data.Dataset.sum#
- Dataset.sum(on: str | List[str] | None = None, ignore_nulls: bool = True) Any | Dict[str, Any] [源代码]#
计算一个或多个列的总和。
备注
此操作将触发对此数据集执行的延迟转换。
备注
此操作要求所有输入在对象存储中具体化,以便执行。
示例
>>> import ray >>> ray.data.range(100).sum("id") 4950 >>> ray.data.from_items([ ... {"A": i, "B": i**2} ... for i in range(100) ... ]).sum(["A", "B"]) {'sum(A)': 4950, 'sum(B)': 328350}
- 参数:
on – 要聚合的列名或列名列表。
ignore_nulls – 是否忽略空值。如果
True
,计算总和时忽略空值。如果False
,遇到空值时输出为None
。Ray Data 认为np.nan
、None
和pd.NaT
为空值。默认值为True
。
- 返回:
求和结果。对于不同的
on
值,返回结果不同: -on=None
:包含所有列的列方向求和的字典, -on="col"
:表示列"col"
中所有项之和的标量, -on=["col_1", ..., "col_n"]
:包含所提供列的列方向求和的 n 列字典。 如果数据集为空,所有值均为空。如果ignore_nulls
为False
且任何值为空,则输出为None
。