dask_ml.model_selection.ShuffleSplit
dask_ml.model_selection
.ShuffleSplit¶
- class dask_ml.model_selection.ShuffleSplit(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)[源代码]¶
随机排列交叉验证器。
生成用于将数据分割为训练集和测试集的索引。
警告
默认情况下,这会执行块内洗牌。也就是说,每个块内部的数据会被洗牌,但块与块之间的数据不会被洗牌。如果你的数据是有序的,那么请设置
blockwise=False
。注意:与其他交叉验证策略相反,随机分割不能保证所有折叠都是不同的,尽管对于规模较大的数据集,这种情况仍然非常可能。
- 参数
- n_splitsint, 默认 10
重新洗牌和分割的迭代次数。
- test_sizefloat, int, None, default=0.1
如果是浮点数,应在0.0到1.0之间,表示测试分割中包含的数据集比例。如果是整数,表示测试样本的绝对数量。如果是None,该值设置为训练大小的补数。
- train_sizefloat, int, 或 None, 默认=None
如果是浮点数,应在 0.0 和 1.0 之间,并表示包含在训练分割中的数据集比例。如果是整数,表示训练样本的绝对数量。如果是 None,该值会自动设置为测试大小的补数。
- 分块bool, 默认 True
是否仅在块内打乱数据(True),或允许数据在块之间打乱(False)。在块之间打乱数据可能会更加昂贵,尤其是在分布式环境中。
- random_stateint, RandomState 实例或 None, 可选 (默认=None)
如果为整数,random_state 是随机数生成器使用的种子;如果为 RandomState 实例,random_state 是随机数生成器;如果为 None,随机数生成器是 np.random 使用的 RandomState 实例。
方法
get_metadata_routing
()获取此对象的元数据路由。
get_n_splits
([X, y, groups])返回交叉验证器中的分割迭代次数。
split
(X[, y, groups])生成索引以将数据分割为训练集和测试集。