ray.data.Dataset.groupby#
- Dataset.groupby(key: str | List[str] | None) GroupedData [源代码]#
根据某一列对
Dataset
的行进行分组。使用此方法基于分类变量转换数据。
备注
此操作要求所有输入在对象存储中具体化,以便执行。
示例
import pandas as pd import ray def normalize_variety(group: pd.DataFrame) -> pd.DataFrame: for feature in group.drop("variety").columns: group[feature] = group[feature] / group[feature].abs().max() return group ds = ( ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet") .groupby("variety") .map_groups(normalize_variety, batch_format="pandas") )
时间复杂度:O(数据集大小 * log(数据集大小 / 并行度))
- 参数:
key – 列名或列名列表。
None (If this is)
group. (place all rows in a single)
- 返回:
一个懒惰的
GroupedData
。
参见
map_groups()
调用此方法以转换数据组。