ray.data.Dataset.train_test_split#
- Dataset.train_test_split(test_size: int | float, *, shuffle: bool = False, seed: int | None = None) Tuple[MaterializedDataset, MaterializedDataset] [源代码]#
将数据集物化并分割为训练集和测试集。
备注
此操作将触发对此数据集执行的延迟转换。
示例
>>> import ray >>> ds = ray.data.range(8) >>> train, test = ds.train_test_split(test_size=0.25) >>> train.take_batch() {'id': array([0, 1, 2, 3, 4, 5])} >>> test.take_batch() {'id': array([6, 7])}
- 参数:
test_size – 如果是浮点数,应在 0.0 和 1.0 之间,并表示测试分割中包含的数据集比例。如果是整数,表示测试样本的绝对数量。训练分割总是补充测试分割。
shuffle – 在分割数据集之前是否全局打乱数据集。默认为
False
。对于大型数据集,这可能是一个非常昂贵的操作。seed – 修复用于洗牌的随机种子,否则将根据系统随机性选择一个。如果
shuffle=False
,则忽略。
- 返回:
训练和测试子集作为两个
MaterializedDatasets
。