LeaveOneGroupOut#

class sklearn.model_selection.LeaveOneGroupOut#

Leave One Group Out 交叉验证器。

提供训练/测试索引以分割数据,使得每个训练集由所有样本组成,除了属于一个特定组的样本。 提供了任意领域特定的组信息,这些信息由一个整数数组编码,表示每个样本的组。

例如,组可以是样本收集的年份,从而允许基于时间分割的交叉验证。

更多信息请参阅 用户指南

See also

GroupKFold

具有不重叠组的 K-fold 迭代器变体。

Notes

分割根据被排除组的索引顺序排列。第一个分割的测试集由 groups 中索引最低的组组成,依此类推。

Examples

>>> import numpy as np
>>> from sklearn.model_selection import LeaveOneGroupOut
>>> X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
>>> y = np.array([1, 2, 1, 2])
>>> groups = np.array([1, 1, 2, 2])
>>> logo = LeaveOneGroupOut()
>>> logo.get_n_splits(X, y, groups)
2
>>> logo.get_n_splits(groups=groups)  # 'groups' 是始终需要的
2
>>> print(logo)
LeaveOneGroupOut()
>>> for i, (train_index, test_index) in enumerate(logo.split(X, y, groups)):
...     print(f"Fold {i}:")
...     print(f"  Train: index={train_index}, group={groups[train_index]}")
...     print(f"  Test:  index={test_index}, group={groups[test_index]}")
Fold 0:
  Train: index=[2 3], group=[2 2]
  Test:  index=[0 1], group=[1 1]
Fold 1:
  Train: index=[0 1], group=[1 1]
  Test:  index=[2 3], group=[2 2]
get_metadata_routing()#

获取此对象的元数据路由。

请查看 用户指南 以了解路由机制的工作原理。

Returns:
routingMetadataRequest

MetadataRequest 封装的 路由信息。

get_n_splits(X=None, y=None, groups=None)#

返回交叉验证器中的拆分迭代次数。

Parameters:
Xobject

总是被忽略,存在是为了兼容性。

yobject

总是被忽略,存在是为了兼容性。

groupsarray-like of shape (n_samples,)

在将数据集拆分为训练/测试集时使用的样本的组标签。必须始终指定此’groups’参数以计算拆分次数,尽管可以省略其他参数。

Returns:
n_splitsint

返回交叉验证器中的拆分迭代次数。

set_split_request(*, groups: bool | None | str = '$UNCHANGED$') LeaveOneGroupOut#

Request metadata passed to the split method.

Note that this method is only relevant if enable_metadata_routing=True (see sklearn.set_config ). Please see User Guide on how the routing mechanism works.

The options for each parameter are:

  • True : metadata is requested, and passed to split if provided. The request is ignored if metadata is not provided.

  • False : metadata is not requested and the meta-estimator will not pass it to split .

  • None : metadata is not requested, and the meta-estimator will raise an error if the user provides it.

  • str : metadata should be passed to the meta-estimator with this given alias instead of the original name.

The default ( sklearn.utils.metadata_routing.UNCHANGED ) retains the existing request. This allows you to change the request for some parameters and not others.

Added in version 1.3.

Note

This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a Pipeline . Otherwise it has no effect.

Parameters:
groupsstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED

Metadata routing for groups parameter in split .

Returns:
selfobject

The updated object.

split(X, y=None, groups=None)#

生成索引以将数据拆分为训练集和测试集。

Parameters:
X形状为 (n_samples, n_features) 的类数组

训练数据,其中 n_samples 是样本数量 且 n_features 是特征数量。

y形状为 (n_samples,) 的类数组,默认=None

监督学习问题的目标变量。

groups形状为 (n_samples,) 的类数组

在将数据集拆分为训练/测试集时使用的样本组标签。

Yields:
trainndarray

该拆分的训练集索引。

testndarray

该拆分的测试集索引。