ray.data.Dataset.zip#

Dataset.zip(other: Dataset) Dataset[源代码]#

将此数据集的列与另一数据集的列进行压缩。

数据集必须具有相同的行数。它们的列集合被合并,任何重复的列名都会通过添加后缀如 "_1" 来消除歧义。

备注

两个数据集中较小的一个被重新分区,以使其每个块的行数与较大的数据集对齐。

备注

压缩数据集不是血统可序列化的。因此,它们不能用作 Ray Tune 中的可调超参数。

示例

>>> import ray
>>> ds1 = ray.data.range(5)
>>> ds2 = ray.data.range(5)
>>> ds1.zip(ds2).take_batch()
{'id': array([0, 1, 2, 3, 4]), 'id_1': array([0, 1, 2, 3, 4])}
参数:

other – 右侧要压缩的数据集。

返回:

包含第二个数据集的列与第一个数据集的列水平连接的 数据集 ,重复的列名通过添加后缀如 "_1" 来消除歧义。