dask_ml.model_selection.ShuffleSplit

dask_ml.model_selection.ShuffleSplit

class dask_ml.model_selection.ShuffleSplit(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)[源代码]

随机排列交叉验证器。

生成用于将数据分割为训练集和测试集的索引。

警告

默认情况下,这会执行块内洗牌。也就是说,每个块内部的数据会被洗牌,但块与块之间的数据不会被洗牌。如果你的数据是有序的,那么请设置 blockwise=False

注意:与其他交叉验证策略相反,随机分割不能保证所有折叠都是不同的,尽管对于规模较大的数据集,这种情况仍然非常可能。

参数
n_splitsint, 默认 10

重新洗牌和分割的迭代次数。

test_sizefloat, int, None, default=0.1

如果是浮点数,应在0.0到1.0之间,表示测试分割中包含的数据集比例。如果是整数,表示测试样本的绝对数量。如果是None,该值设置为训练大小的补数。

train_sizefloat, int, 或 None, 默认=None

如果是浮点数,应在 0.0 和 1.0 之间,并表示包含在训练分割中的数据集比例。如果是整数,表示训练样本的绝对数量。如果是 None,该值会自动设置为测试大小的补数。

分块bool, 默认 True

是否仅在块内打乱数据(True),或允许数据在块之间打乱(False)。在块之间打乱数据可能会更加昂贵,尤其是在分布式环境中。

random_stateint, RandomState 实例或 None, 可选 (默认=None)

如果为整数,random_state 是随机数生成器使用的种子;如果为 RandomState 实例,random_state 是随机数生成器;如果为 None,随机数生成器是 np.random 使用的 RandomState 实例。

方法

get_metadata_routing()

获取此对象的元数据路由。

get_n_splits([X, y, groups])

返回交叉验证器中的分割迭代次数。

split(X[, y, groups])

生成索引以将数据分割为训练集和测试集。

__init__(n_splits=10, test_size=0.1, train_size=None, blockwise=True, random_state=None)[源代码]