本文简要介绍
pyspark.mllib.tree.DecisionTree.trainRegressor
的用法。用法:
classmethod trainRegressor(data, categoricalFeaturesInfo, impurity='variance', maxDepth=5, maxBins=32, minInstancesPerNode=1, minInfoGain=0.0)
训练回归的决策树模型。
- data:
pyspark.RDD
训练数据:LabeledPoint 的 RDD。标签是实数。
- categoricalFeaturesInfo:dict
Map存储分类特征的数量。条目 (n -> k) 表示特征 n 是分类的,其中 k 个类别从 0 开始索引:{0, 1, ..., k-1}。
- impurity:str,可选
用于信息增益计算的标准。唯一支持的回归值是“variance”。 (默认:“variance”)
- maxDepth:整数,可选
树的最大深度(例如,深度 0 表示 1 个叶节点,深度 1 表示 1 个内部节点 + 2 个叶节点)。 (默认值:5)
- maxBins:整数,可选
用于在每个节点处查找拆分的箱数。 (默认值:32)
- minInstancesPerNode:整数,可选
子节点创建父拆分所需的最小实例数。 (默认值:1)
- minInfoGain:浮点数,可选
创建拆分所需的最小信息增益。 (默认值:0.0)
- data:
参数:
返回:
例子:
>>> from pyspark.mllib.regression import LabeledPoint >>> from pyspark.mllib.tree import DecisionTree >>> from pyspark.mllib.linalg import SparseVector >>> >>> sparse_data = [ ... LabeledPoint(0.0, SparseVector(2, {0: 0.0})), ... LabeledPoint(1.0, SparseVector(2, {1: 1.0})), ... LabeledPoint(0.0, SparseVector(2, {0: 0.0})), ... LabeledPoint(1.0, SparseVector(2, {1: 2.0})) ... ] >>> >>> model = DecisionTree.trainRegressor(sc.parallelize(sparse_data), {}) >>> model.predict(SparseVector(2, {1: 1.0})) 1.0 >>> model.predict(SparseVector(2, {1: 0.0})) 0.0 >>> rdd = sc.parallelize([[0.0, 1.0], [0.0, 0.0]]) >>> model.predict(rdd).collect() [1.0, 0.0]
1.1.0 版中的新函数。
相关用法
- Python pyspark DecisionTree.trainClassifier用法及代码示例
- Python pyspark DecisionTreeClassifier用法及代码示例
- Python pyspark DecisionTreeRegressor用法及代码示例
- Python pyspark DenseMatrix.toArray用法及代码示例
- Python pyspark DenseVector.parse用法及代码示例
- Python pyspark DenseVector用法及代码示例
- Python pyspark DenseVector.squared_distance用法及代码示例
- Python pyspark DenseVector.norm用法及代码示例
- Python pyspark DenseVector.dot用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataStreamReader.schema用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrameWriter.partitionBy用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DatetimeIndex.is_month_start用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DatetimeIndex.normalize用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DatetimeIndex.is_month_end用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DatetimeIndex.is_quarter_start用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.mllib.tree.DecisionTree.trainRegressor。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。