ray.data.Dataset.groupby#

Dataset.groupby(key: str | List[str] | None) → GroupedData[源代码]#

根据某一列对 Dataset 的行进行分组。

使用此方法基于分类变量转换数据。

备注

此操作要求所有输入在对象存储中具体化，以便执行。

示例

import pandas as pd
import ray

def normalize_variety(group: pd.DataFrame) -> pd.DataFrame:
    for feature in group.drop("variety").columns:
        group[feature] = group[feature] / group[feature].abs().max()
    return group

ds = (
    ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet")
    .groupby("variety")
    .map_groups(normalize_variety, batch_format="pandas")
)

时间复杂度：O(数据集大小 * log(数据集大小 / 并行度))

参数:

key – 列名或列名列表。
None (If this is)
group. (place all rows in a single)

返回:

一个懒惰的 GroupedData。

参见

map_groups(): 调用此方法以转换数据组。