ExtraTreeClassifier#
- class sklearn.tree.ExtraTreeClassifier(*, criterion='gini', splitter='random', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='sqrt', random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, class_weight=None, ccp_alpha=0.0, monotonic_cst=None)#
一个极度随机化的树分类器。
Extra-trees与经典决策树在构建方式上有所不同。在寻找最佳分割以将节点中的样本分成两组时,会为每个随机选择的
max_features
特征绘制随机分割,并从这些分割中选择最佳分割。当max_features
设置为1时,这相当于构建一个完全随机的决策树。警告:Extra-trees应仅在集成方法中使用。
更多信息请参阅 用户指南 。
- Parameters:
- criterion{“gini”, “entropy”, “log_loss”}, default=”gini”
用于衡量分割质量的函数。支持的标准是“gini”用于基尼不纯度,“log_loss”和“entropy”均用于香农信息增益,详见 树的数学公式 。
- splitter{“random”, “best”}, default=”random”
在每个节点选择分割的策略。支持的策略是“best”选择最佳分割和“random”选择最佳随机分割。
- max_depthint, default=None
树的最大深度。如果为None,则节点会一直扩展,直到所有叶子都是纯的或所有叶子包含的样本数少于min_samples_split。
- min_samples_splitint or float, default=2
分割内部节点所需的最小样本数:
如果为int,则将
min_samples_split
视为最小数量。如果为float,则
min_samples_split
是一个分数,ceil(min_samples_split * n_samples)
是每个分割的最小样本数。
Changed in version 0.18: 增加了分数值。
- min_samples_leafint or float, default=1
叶节点所需的最小样本数。在任何深度的分割点只有在每个左分支和右分支中留下至少
min_samples_leaf
个训练样本时才会被考虑。这可能会对模型产生平滑效果,特别是在回归中。如果为int,则将
min_samples_leaf
视为最小数量。如果为float,则
min_samples_leaf
是一个分数,ceil(min_samples_leaf * n_samples)
是每个节点的最小样本数。
Changed in version 0.18: 增加了分数值。
- min_weight_fraction_leaffloat, default=0.0
叶节点所需的最小加权分数。所有输入样本的总权重(如果未提供sample_weight,则样本权重相等)。
- max_featuresint, float, {“sqrt”, “log2”} or None, default=”sqrt”
寻找最佳分割时要考虑的特征数量:
如果为int,则在每个分割时考虑
max_features
个特征。如果为float,则
max_features
是一个分数,max(1, int(max_features * n_features_in_))
个特征在每个分割时被考虑。如果为“sqrt”,则
max_features=sqrt(n_features)
。如果为“log2”,则
max_features=log2(n_features)
。如果为None,则
max_features=n_features
。
Changed in version 1.1:
max_features
的默认值从"auto"
改为"sqrt"
。注意:寻找分割不会停止,直到至少找到一个有效的节点样本分区,即使需要实际检查超过
max_features
个特征。- random_stateint, RandomState instance or None, default=None
用于在每个分割时随机选择
max_features
。详见 Glossary 。- max_leaf_nodesint, default=None
以最佳优先方式生长具有
max_leaf_nodes
的树。最佳节点定义为相对减少的不纯度。如果为None,则叶节点数量不受限制。- min_impurity_decreasefloat, default=0.0
如果分割导致的不纯度减少大于或等于此值,则节点将被分割。
加权不纯度减少方程如下:
N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)
其中
N
是样本总数,N_t
是当前节点的样本数,N_t_L
是左子节点的样本数,N_t_R
是右子节点的样本数。N
,N_t
,N_t_R
和N_t_L
均指加权和,如果传递了sample_weight
。Added in version 0.19.
- class_weightdict, list of dict or “balanced”, default=None
与类关联的权重,形式为
{class_label: weight}
。如果为None,则所有类别的权重均为1。对于多输出问题,可以按y列的顺序提供字典列表。注意:对于多输出(包括多标签),权重应为每个列的每个类别定义在其自己的字典中。例如,对于四类多标签分类,权重应为[{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}],而不是[{1:1}, {2:5}, {3:1}, {4:1}]。
“balanced”模式使用y的值自动调整权重,与输入数据中的类别频率成反比,即
n_samples / (n_classes * np.bincount(y))
。对于多输出,y的每列权重将被乘以。
注意:如果指定了sample_weight(通过fit方法传递),这些权重将与sample_weight相乘。
- ccp_alphanon-negative float, default=0.0
用于最小成本复杂度剪枝的复杂度参数。将选择成本复杂度最大的子树,该子树小于
ccp_alpha
。默认情况下,不进行剪枝。详见 最小成本复杂度剪枝 。Added in version 0.22.
- monotonic_cstarray-like of int of shape (n_features), default=None
- 指示要在每个特征上强制执行的单调性约束。
1: 单调增加
0: 无约束
-1: 单调减少
如果monotonic_cst为None,则不应用约束。
- 单调性约束不支持:
多类分类(即当
n_classes > 2
时),多输出分类(即当
n_outputs_ > 1
时),在数据包含缺失值时训练的分类。
约束适用于正类的概率。
更多信息请参阅 用户指南 。
Added in version 1.4.
- Attributes:
- classes_ndarray of shape (n_classes,) or list of ndarray
类别标签(单输出问题),或类别标签数组列表(多输出问题)。
- max_features_int
max_features的推断值。
- n_classes_int or list of int
类别数量(单输出问题),或多输出问题中每个输出的类别数量列表。
feature_importances_
ndarray of shape (n_features,)返回特征重要性。
- n_features_in_int
在 fit 期间看到的特征数量。
Added in version 0.24.
- feature_names_in_ndarray of shape (
n_features_in_
,) 在 fit 期间看到的特征名称。仅当
X
的特征名称均为字符串时定义。Added in version 1.0.
- n_outputs_int
执行
fit
时的输出数量。- tree_Tree instance
底层Tree对象。请参阅
help(sklearn.tree._tree.Tree)
了解Tree对象的属性,以及 理解决策树结构 了解这些属性的基本用法。
See also
ExtraTreeRegressor
一个极度随机化的树回归器。
sklearn.ensemble.ExtraTreesClassifier
一个extra-trees分类器。
sklearn.ensemble.ExtraTreesRegressor
一个extra-trees回归器。
sklearn.ensemble.RandomForestClassifier
一个随机森林分类器。
sklearn.ensemble.RandomForestRegressor
一个随机森林回归器。
sklearn.ensemble.RandomTreesEmbedding
一个完全随机树的集成。
Notes
控制树大小的参数的默认值(例如
max_depth
,min_samples_leaf
等)会导致完全生长且未修剪的树,这些树在某些数据集上可能会非常大。为了减少内存消耗,应通过设置这些参数值来控制树的复杂性和大小。References
[1]P. Geurts, D. Ernst., and L. Wehenkel, “Extremely randomized trees”, Machine Learning, 63(1), 3-42, 2006.
Examples
>>> from sklearn.datasets import load_iris >>> from sklearn.model_selection import train_test_split >>> from sklearn.ensemble import BaggingClassifier >>> from sklearn.tree import ExtraTreeClassifier >>> X, y = load_iris(return_X_y=True) >>> X_train, X_test, y_train, y_test = train_test_split( ... X, y, random_state=0) >>> extra_tree = ExtraTreeClassifier(random_state=0) >>> cls = BaggingClassifier(extra_tree, random_state=0).fit( ... X_train, y_train) >>> cls.score(X_test, y_test) 0.8947...
- apply(X, check_input=True)#
返回每个样本被预测为的叶子的索引。
Added in version 0.17.
- Parameters:
- X{array-like, sparse matrix},形状为 (n_samples, n_features)
输入样本。内部将转换为
dtype=np.float32
,如果提供稀疏矩阵,则转换为稀疏的csr_matrix
。- check_inputbool, 默认=True
允许绕过多个输入检查。 除非你知道自己在做什么,否则不要使用此参数。
- Returns:
- X_leavesarray-like,形状为 (n_samples,)
对于 X 中的每个数据点 x,返回 x 最终所在的叶子的索引。叶子编号在
[0; self.tree_.node_count)
范围内,编号可能会有间隙。
- cost_complexity_pruning_path(X, y, sample_weight=None)#
计算在最小成本复杂度剪枝过程中的剪枝路径。
有关剪枝过程的详细信息,请参见 最小成本复杂度剪枝 。
- Parameters:
- X{array-like, sparse matrix} of shape (n_samples, n_features)
训练输入样本。内部将转换为
dtype=np.float32
,如果提供稀疏矩阵,则转换为稀疏的csc_matrix
。- yarray-like of shape (n_samples,) or (n_samples, n_outputs)
目标值(类标签)为整数或字符串。
- sample_weightarray-like of shape (n_samples,), default=None
样本权重。如果为 None,则样本等权重。在每个节点中搜索分割时,会忽略创建子节点净零或负权重的分割。如果分割会导致任一子节点中的任何单一类别负权重,也会忽略这些分割。
- Returns:
- ccp_path
Bunch
类似字典的对象,具有以下属性。
- ccp_alphasndarray
剪枝过程中子树的有效 alphas。
- impuritiesndarray
对应于
ccp_alphas
中的 alpha 值的子树叶子总杂质。
- ccp_path
- decision_path(X, check_input=True)#
返回树中的决策路径。
Added in version 0.18.
- Parameters:
- X{array-like, sparse matrix},形状为 (n_samples, n_features)
输入样本。内部将转换为
dtype=np.float32
,如果提供稀疏矩阵,则转换为稀疏csr_matrix
。- check_inputbool, 默认=True
允许绕过多个输入检查。 除非你知道自己在做什么,否则不要使用此参数。
- Returns:
- indicator形状为 (n_samples, n_nodes) 的稀疏矩阵
返回一个节点指示 CSR 矩阵,其中非零元素表示样本经过这些节点。
- property feature_importances_#
返回特征重要性。
特征的重要性计算为其带来的准则(归一化)总减少量。 这也被称为基尼重要性。
警告:基于不纯度的特征重要性对于高基数特征(许多唯一值)可能会产生误导。请参阅
sklearn.inspection.permutation_importance
作为替代方法。- Returns:
- feature_importances_ndarray of shape (n_features,)
特征带来的准则归一化总减少量(基尼重要性)。
- fit(X, y, sample_weight=None, check_input=True)#
构建一个从训练集(X, y)生成的决策树分类器。
- Parameters:
- X{array-like, sparse matrix},形状为 (n_samples, n_features)
训练输入样本。内部将转换为
dtype=np.float32
,如果提供稀疏矩阵, 则转换为稀疏的csc_matrix
。- yarray-like,形状为 (n_samples,) 或 (n_samples, n_outputs)
目标值(类标签)为整数或字符串。
- sample_weightarray-like,形状为 (n_samples,),默认=None
样本权重。如果为 None,则样本权重相等。在每个节点中搜索分割时, 会忽略那些会创建子节点净零或负权重的分割。如果分割会导致任一子节点中 任何单一类别的权重为负,也会被忽略。
- check_inputbool,默认=True
允许绕过多个输入检查。 除非你知道自己在做什么,否则不要使用此参数。
- Returns:
- selfDecisionTreeClassifier
拟合的估计器。
- get_depth()#
返回决策树的深度。
树的深度是根节点与任何叶节点之间的最大距离。
- Returns:
- self.tree_.max_depthint
树的最大深度。
- get_metadata_routing()#
获取此对象的元数据路由。
请查看 用户指南 以了解路由机制的工作原理。
- Returns:
- routingMetadataRequest
MetadataRequest
封装的 路由信息。
- get_n_leaves()#
返回决策树的叶子数量。
- Returns:
- self.tree_.n_leavesint
叶子数量。
- get_params(deep=True)#
获取此估计器的参数。
- Parameters:
- deepbool, 默认=True
如果为True,将返回此估计器和包含的子对象(也是估计器)的参数。
- Returns:
- paramsdict
参数名称映射到它们的值。
- predict(X, check_input=True)#
预测X的类别或回归值。
对于分类模型,返回X中每个样本的预测类别。对于回归模型,返回基于X的预测值。
- Parameters:
- X{array-like, sparse matrix} of shape (n_samples, n_features)
输入样本。内部将转换为
dtype=np.float32
,如果提供稀疏矩阵,则转换为稀疏的csr_matrix
。- check_inputbool, default=True
允许绕过多个输入检查。 除非你知道自己在做什么,否则不要使用此参数。
- Returns:
- yarray-like of shape (n_samples,) or (n_samples, n_outputs)
预测的类别或预测值。
- predict_log_proba(X)#
预测输入样本X的类别对数概率。
- Parameters:
- X{array-like, sparse matrix},形状为 (n_samples, n_features)
输入样本。内部将转换为
dtype=np.float32
,如果提供稀疏矩阵,则转换为稀疏的csr_matrix
。
- Returns:
- probandarray,形状为 (n_samples, n_classes) 或 n_outputs 个此类数组的列表(如果 n_outputs > 1)
输入样本的类别对数概率。类别的顺序与属性 classes_ 中的顺序相对应。
- predict_proba(X, check_input=True)#
预测输入样本X的类别概率。
预测的类别概率是叶子中相同类别样本的比例。
- Parameters:
- X{array-like, sparse matrix},形状为 (n_samples, n_features)
输入样本。内部将转换为
dtype=np.float32
,如果提供稀疏矩阵,则转换为稀疏的csr_matrix
。- check_inputbool, 默认=True
允许绕过多个输入检查。 除非你知道自己在做什么,否则不要使用此参数。
- Returns:
- probandarray,形状为 (n_samples, n_classes) 或 n_outputs 个此类数组的列表(如果 n_outputs > 1)
输入样本的类别概率。类别的顺序与属性 classes_ 中的顺序相对应。
- score(X, y, sample_weight=None)#
返回给定测试数据和标签的平均准确率。
在多标签分类中,这是子集准确率,这是一个严格的指标,因为你要求每个样本的每个标签集都被正确预测。
- Parameters:
- X形状为 (n_samples, n_features) 的类数组
测试样本。
- y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组
` X`的真实标签。
- sample_weight形状为 (n_samples,) 的类数组,默认=None
样本权重。
- Returns:
- scorefloat
self.predict(X)
相对于y
的平均准确率。
- set_fit_request(*, check_input: bool | None | str = '$UNCHANGED$', sample_weight: bool | None | str = '$UNCHANGED$') ExtraTreeClassifier #
Request metadata passed to the
fit
method.Note that this method is only relevant if
enable_metadata_routing=True
(seesklearn.set_config
). Please see User Guide on how the routing mechanism works.The options for each parameter are:
True
: metadata is requested, and passed tofit
if provided. The request is ignored if metadata is not provided.False
: metadata is not requested and the meta-estimator will not pass it tofit
.None
: metadata is not requested, and the meta-estimator will raise an error if the user provides it.str
: metadata should be passed to the meta-estimator with this given alias instead of the original name.
The default (
sklearn.utils.metadata_routing.UNCHANGED
) retains the existing request. This allows you to change the request for some parameters and not others.Added in version 1.3.
Note
This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a
Pipeline
. Otherwise it has no effect.- Parameters:
- check_inputstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
Metadata routing for
check_input
parameter infit
.- sample_weightstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
Metadata routing for
sample_weight
parameter infit
.
- Returns:
- selfobject
The updated object.
- set_params(**params)#
设置此估计器的参数。
该方法适用于简单估计器以及嵌套对象(例如
Pipeline
)。后者具有形式为<component>__<parameter>
的参数,以便可以更新嵌套对象的每个组件。- Parameters:
- **paramsdict
估计器参数。
- Returns:
- selfestimator instance
估计器实例。
- set_predict_proba_request(*, check_input: bool | None | str = '$UNCHANGED$') ExtraTreeClassifier #
Request metadata passed to the
predict_proba
method.Note that this method is only relevant if
enable_metadata_routing=True
(seesklearn.set_config
). Please see User Guide on how the routing mechanism works.The options for each parameter are:
True
: metadata is requested, and passed topredict_proba
if provided. The request is ignored if metadata is not provided.False
: metadata is not requested and the meta-estimator will not pass it topredict_proba
.None
: metadata is not requested, and the meta-estimator will raise an error if the user provides it.str
: metadata should be passed to the meta-estimator with this given alias instead of the original name.
The default (
sklearn.utils.metadata_routing.UNCHANGED
) retains the existing request. This allows you to change the request for some parameters and not others.Added in version 1.3.
Note
This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a
Pipeline
. Otherwise it has no effect.- Parameters:
- check_inputstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
Metadata routing for
check_input
parameter inpredict_proba
.
- Returns:
- selfobject
The updated object.
- set_predict_request(*, check_input: bool | None | str = '$UNCHANGED$') ExtraTreeClassifier #
Request metadata passed to the
predict
method.Note that this method is only relevant if
enable_metadata_routing=True
(seesklearn.set_config
). Please see User Guide on how the routing mechanism works.The options for each parameter are:
True
: metadata is requested, and passed topredict
if provided. The request is ignored if metadata is not provided.False
: metadata is not requested and the meta-estimator will not pass it topredict
.None
: metadata is not requested, and the meta-estimator will raise an error if the user provides it.str
: metadata should be passed to the meta-estimator with this given alias instead of the original name.
The default (
sklearn.utils.metadata_routing.UNCHANGED
) retains the existing request. This allows you to change the request for some parameters and not others.Added in version 1.3.
Note
This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a
Pipeline
. Otherwise it has no effect.- Parameters:
- check_inputstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
Metadata routing for
check_input
parameter inpredict
.
- Returns:
- selfobject
The updated object.
- set_score_request(*, sample_weight: bool | None | str = '$UNCHANGED$') ExtraTreeClassifier #
Request metadata passed to the
score
method.Note that this method is only relevant if
enable_metadata_routing=True
(seesklearn.set_config
). Please see User Guide on how the routing mechanism works.The options for each parameter are:
True
: metadata is requested, and passed toscore
if provided. The request is ignored if metadata is not provided.False
: metadata is not requested and the meta-estimator will not pass it toscore
.None
: metadata is not requested, and the meta-estimator will raise an error if the user provides it.str
: metadata should be passed to the meta-estimator with this given alias instead of the original name.
The default (
sklearn.utils.metadata_routing.UNCHANGED
) retains the existing request. This allows you to change the request for some parameters and not others.Added in version 1.3.
Note
This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a
Pipeline
. Otherwise it has no effect.- Parameters:
- sample_weightstr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
Metadata routing for
sample_weight
parameter inscore
.
- Returns:
- selfobject
The updated object.