Python sklearn ExtraTreeRegressor用法及代码示例

本文简要介绍python语言中 sklearn.tree.ExtraTreeRegressor 的用法。

用法: class sklearn.tree.ExtraTreeRegressor(*, criterion='squared_error', splitter='random', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', random_state=None, min_impurity_decrease=0.0, max_leaf_nodes=None, ccp_alpha=0.0)

一个非常随机的树回归器。

Extra-trees 与经典决策树的构建方式不同。在寻找将节点样本分成两组的最佳分割时，会为每个 max_features 随机选择的特征绘制随机分割，并选择其中的最佳分割。当max_features 设置为 1 时，这相当于构建一个完全随机的决策树。

警告：Extra-trees 只能在 ensemble 方法中使用。

在用户指南中阅读更多信息。

参数：

criterion：{“squared_error”，“friedman_mse”}，默认=”squared_error”

测量分割质量的函数。支持的标准是均方误差的“squared_error”，它等于作为特征选择标准的方差减少和平均绝对误差的“mae”。

splitter：{“random”, “best”}，默认=”random”

用于在每个节点处选择拆分的策略。支持的策略是“best” 选择最佳分割和“random” 选择最佳随机分割。

max_depth：整数，默认=无

树的最大深度。如果没有，则扩展节点直到所有叶子都是纯的或直到所有叶子包含少于min_samples_split 个样本。

min_samples_split：int 或浮点数，默认=2

拆分内部节点所需的最小样本数：

如果是 int，则将 min_samples_split 视为最小数字。
如果是浮点数，那么 min_samples_split 是一个分数，而 ceil(min_samples_split * n_samples) 是每个拆分的最小样本数。

min_samples_leaf：int 或浮点数，默认=1

叶节点所需的最小样本数。只有在左右分支中的每个分支中至少留下min_samples_leaf 训练样本时，才会考虑任何深度的分割点。这可能具有平滑模型的效果，尤其是在回归中。

如果是 int，则将 min_samples_leaf 视为最小数字。
如果是浮点数，那么 min_samples_leaf 是分数，而 ceil(min_samples_leaf * n_samples) 是每个节点的最小样本数。

min_weight_fraction_leaf：浮点数，默认=0.0

需要在叶节点处的权重总和(所有输入样本的)的最小加权分数。当未提供sample_weight 时，样本具有相同的权重。

max_features：int、float、{“auto”, “sqrt”、“log2”} 或 None，默认=”auto”

寻找最佳分割时要考虑的特征数量：

如果是 int，则在每次拆分时考虑 max_features 特征。
如果是浮点数，那么 max_features 是一个分数，并且在每次拆分时都会考虑 int(max_features * n_features) 特征。
如果 “auto”，那么 max_features=n_features 。
如果 “sqrt”，那么 max_features=sqrt(n_features) 。
如果 “log2”，那么 max_features=log2(n_features) 。
如果没有，那么 max_features=n_features 。

注意：在找到至少一个节点样本的有效分区之前，对拆分的搜索不会停止，即使它需要有效地检查超过 max_features 的特征。

random_state：int、RandomState 实例或无，默认=无

用于随机选择每次拆分时使用的max_features。有关详细信息，请参阅词汇表。

min_impurity_decrease：浮点数，默认=0.0

如果该分裂导致杂质减少大于或等于该值，则该节点将被分裂。

加权杂质减少方程如下：

N_t / N * (impurity - N_t_R / N_t * right_impurity
                    - N_t_L / N_t * left_impurity)

其中N是样本总数，N_t是当前节点的样本数，N_t_L是左孩子的样本数，N_t_R是右孩子的样本数.

N , N_t , N_t_R 和 N_t_L 都是指加权和，如果通过了 sample_weight。

max_leaf_nodes：整数，默认=无

以best-first 方式用max_leaf_nodes 种植一棵树。最佳节点定义为杂质的相对减少。如果 None 则无限数量的叶节点。

ccp_alpha：非负浮点数，默认=0.0

用于最小Cost-Complexity 修剪的复杂度参数。将选择具有最大成本复杂度且小于ccp_alpha 的子树。默认情况下，不进行剪枝。有关详细信息，请参阅最小 Cost-Complexity 修剪。

属性：

max_features_：int: max_features 的推断值。
n_features_int: 已弃用：属性 n_features_ 在 1.0 中已弃用，并将在 1.2 中删除。
n_features_in_：int: 拟合期间看到的特征数。
feature_names_in_：ndarray 形状(n_features_in_，): 拟合期间看到的特征名称。仅当 X 具有全为字符串的函数名称时才定义。
feature_importances_ndarray 形状 (n_features,): 返回特征重要性。
n_outputs_：int: 执行fit 时的输出数。
tree_：树实例: 基础树对象。请参考 help(sklearn.tree._tree.Tree) 了解 Tree 对象的属性和了解决策树结构了解这些属性的基本用法。

注意：

控制树大小的参数的默认值(例如 max_depth 、 min_samples_leaf 等)会导致完全生长和未修剪的树在某些数据集上可能非常大。为了减少内存消耗，应该通过设置这些参数值来控制树的复杂性和大小。

参考：

1: P. Geurts、D. Ernst. 和 L. Wehenkel，“Extremely randomized trees”，机器学习，63(1)，3-42，2006。

例子：

>>> from sklearn.datasets import load_diabetes
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.ensemble import BaggingRegressor
>>> from sklearn.tree import ExtraTreeRegressor
>>> X, y = load_diabetes(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, random_state=0)
>>> extra_tree = ExtraTreeRegressor(random_state=0)
>>> reg = BaggingRegressor(extra_tree, random_state=0).fit(
...     X_train, y_train)
>>> reg.score(X_test, y_test)
0.33...

相关用法

注：本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.tree.ExtraTreeRegressor。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。