ray.data.Dataset.train_test_split#

Dataset.train_test_split(test_size: int | float, *, shuffle: bool = False, seed: int | None = None) Tuple[MaterializedDataset, MaterializedDataset][源代码]#

将数据集物化并分割为训练集和测试集。

备注

此操作将触发对此数据集执行的延迟转换。

示例

>>> import ray
>>> ds = ray.data.range(8)
>>> train, test = ds.train_test_split(test_size=0.25)
>>> train.take_batch()
{'id': array([0, 1, 2, 3, 4, 5])}
>>> test.take_batch()
{'id': array([6, 7])}
参数:
  • test_size – 如果是浮点数,应在 0.0 和 1.0 之间,并表示测试分割中包含的数据集比例。如果是整数,表示测试样本的绝对数量。训练分割总是补充测试分割。

  • shuffle – 在分割数据集之前是否全局打乱数据集。默认为 False。对于大型数据集,这可能是一个非常昂贵的操作。

  • seed – 修复用于洗牌的随机种子,否则将根据系统随机性选择一个。如果 shuffle=False,则忽略。

返回:

训练和测试子集作为两个 MaterializedDatasets