train_test_split#
- sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)#
将数组或矩阵拆分为随机的训练和测试子集。
- 快速实用工具,封装了输入验证、
next(ShuffleSplit().split(X, y))
,以及对输入数据的处理
到一个单一的调用中,用于在一行代码中拆分(并可选地子采样)数据。
更多信息请参阅 用户指南 。
- Parameters:
- *arrays具有相同长度 / shape[0] 的可索引序列
允许的输入是列表、numpy 数组、scipy-sparse 矩阵或 pandas 数据框。
- test_sizefloat 或 int, 默认=None
如果为浮点数,应在 0.0 和 1.0 之间,并表示要包含在测试拆分中的数据集比例。如果为整数,表示测试样本的绝对数量。如果为 None,该值设置为训练大小的补数。如果
train_size
也为 None,则将设置为 0.25。- train_sizefloat 或 int, 默认=None
如果为浮点数,应在 0.0 和 1.0 之间,并表示要包含在训练拆分中的数据集比例。如果为整数,表示训练样本的绝对数量。如果为 None,该值自动设置为测试大小的补数。
- random_stateint, RandomState 实例或 None, 默认=None
控制在对数据应用拆分之前应用的洗牌。传递一个 int 以在多次函数调用中生成可重复的输出。请参阅 术语表 。
- shufflebool, 默认=True
在拆分之前是否对数据进行洗牌。如果 shuffle=False,则 stratify 必须为 None。
- stratify类数组, 默认=None
如果不为 None,数据将按分层方式拆分,使用此作为类标签。更多信息请参阅 用户指南 。
- Returns:
- splitting列表, 长度=2 * len(arrays)
包含输入的训练-测试拆分的列表。
Added in version 0.16: 如果输入是稀疏的,输出将是一个
scipy.sparse.csr_matrix
。否则,输出类型与输入类型相同。
Examples
>>> import numpy as np >>> from sklearn.model_selection import train_test_split >>> X, y = np.arange(10).reshape((5, 2)), range(5) >>> X array([[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]) >>> list(y) [0, 1, 2, 3, 4]
>>> X_train, X_test, y_train, y_test = train_test_split( ... X, y, test_size=0.33, random_state=42) ... >>> X_train array([[4, 5], [0, 1], [6, 7]]) >>> y_train [2, 0, 3] >>> X_test array([[2, 3], [8, 9]]) >>> y_test [1, 4]
>>> train_test_split(y, shuffle=False) [[0, 1, 2], [3, 4]]
Gallery examples#
scikit-learn 1.5 版本发布亮点
scikit-learn 1.4 版本发布亮点
scikit-learn 0.24 版本发布亮点
scikit-learn 0.23 版本发布亮点
scikit-learn 0.22 版本发布亮点
分类器校准比较
分类器的概率校准
概率校准曲线
分类器比较
识别手写数字
主成分回归与偏最小二乘回归
理解决策树结构
通过代价复杂度剪枝对决策树进行后剪枝
核主成分分析
IsolationForest 示例
使用树的森林评估特征重要性
使用树集成进行特征转换
多类AdaBoost决策树
梯度提升中的提前停止
梯度提升回归
梯度提升回归的预测区间
sphx_glr_auto_examples_ensemble_plot_gradient_boosting_regularization.py
梯度提升正则化
梯度提升袋外估计
比较随机森林和多输出元估计器
直方图梯度提升树的特性
使用核PCA进行图像去噪
使用特征脸和支持向量机进行人脸识别的示例
时间序列预测的滞后特征
模型复杂度影响
预测延迟
ANOVA SVM 管道
单变量特征选择
20类新闻组数据集上的多分类稀疏逻辑回归
Tweedie回归在保险理赔中的应用
使用多项逻辑回归和L1正则化进行MNIST分类
基于L1的稀疏信号模型
比较各种在线求解器
泊松回归和非正态损失
随机梯度下降的早停
非负最小二乘法
具有多重共线性或相关特征的排列重要性
机器学习在推断因果效应方面的失败
线性模型系数解释中的常见陷阱
置换重要性与随机森林特征重要性(MDI)对比
通过多项式核近似实现可扩展学习
ROC 曲线与可视化 API
介绍 set_output API
使用显示对象进行可视化
异常检测估计器的评估
多分类接收者操作特性(ROC)
检测错误权衡(DET)曲线
混淆矩阵
类似然比率用于衡量分类性能
精确率-召回率
网格搜索与交叉验证的自定义重拟合策略
训练误差与测试误差
调整决策阈值以适应成本敏感学习
使用分类器链进行多标签分类
使用邻域成分分析进行降维
最近邻分类
比较有无邻域成分分析的最近邻分类
MNIST上MLP权重的可视化
多层感知器中的正则化变化
用于数字分类的受限玻尔兹曼机特征
带有混合类型的列转换器
转换回归模型中的目标变量的效果
将数据映射到正态分布
特征离散化
特征缩放的重要性
目标编码器的内部交叉拟合
文本数据集上的半监督分类