ray.data.Dataset.zip#
- Dataset.zip(other: Dataset) Dataset [源代码]#
将此数据集的列与另一数据集的列进行压缩。
数据集必须具有相同的行数。它们的列集合被合并,任何重复的列名都会通过添加后缀如
"_1"
来消除歧义。备注
两个数据集中较小的一个被重新分区,以使其每个块的行数与较大的数据集对齐。
备注
压缩数据集不是血统可序列化的。因此,它们不能用作 Ray Tune 中的可调超参数。
示例
>>> import ray >>> ds1 = ray.data.range(5) >>> ds2 = ray.data.range(5) >>> ds1.zip(ds2).take_batch() {'id': array([0, 1, 2, 3, 4]), 'id_1': array([0, 1, 2, 3, 4])}
- 参数:
other – 右侧要压缩的数据集。
- 返回:
包含第二个数据集的列与第一个数据集的列水平连接的
数据集
,重复的列名通过添加后缀如"_1"
来消除歧义。