ray.data.Dataset.zip#

Dataset.zip(other: Dataset) → Dataset[源代码]#

将此数据集的列与另一数据集的列进行压缩。

数据集必须具有相同的行数。它们的列集合被合并，任何重复的列名都会通过添加后缀如 "_1" 来消除歧义。

备注

两个数据集中较小的一个被重新分区，以使其每个块的行数与较大的数据集对齐。

备注

压缩数据集不是血统可序列化的。因此，它们不能用作 Ray Tune 中的可调超参数。

示例

>>> import ray
>>> ds1 = ray.data.range(5)
>>> ds2 = ray.data.range(5)
>>> ds1.zip(ds2).take_batch()
{'id': array([0, 1, 2, 3, 4]), 'id_1': array([0, 1, 2, 3, 4])}

参数:: other – 右侧要压缩的数据集。
返回:: 包含第二个数据集的列与第一个数据集的列水平连接的 数据集 ，重复的列名通过添加后缀如 "_1" 来消除歧义。