本文簡要介紹
pyspark.mllib.tree.GradientBoostedTrees.trainRegressor
的用法。用法:
classmethod trainRegressor(data, categoricalFeaturesInfo, loss='leastSquaresError', numIterations=100, learningRate=0.1, maxDepth=3, maxBins=32)
訓練梯度增強樹模型進行回歸。
版本 1.3.0 中的新函數。
- data ::
訓練數據集:LabeledPoint 的 RDD。標簽是實數。
- categoricalFeaturesInfo:dict
Map存儲分類特征的數量。條目 (n -> k) 表示特征 n 是分類的,其中 k 個類別從 0 開始索引:{0, 1, ..., k-1}。
- loss:str,可選
梯度提升期間用於最小化的損失函數。支持的值:“logLoss”、“leastSquaresError”、“leastAbsoluteError”。 (默認:“leastSquaresError”)
- numIterations:整數,可選
提升的迭代次數。 (默認值:100)
- learningRate:浮點數,可選
縮小每個估計器貢獻的學習率。學習率應該在區間 (0, 1] 之間。(默認值:0.1)
- maxDepth:整數,可選
樹的最大深度(例如,深度 0 表示 1 個葉節點,深度 1 表示 1 個內部節點 + 2 個葉節點)。 (默認值:3)
- maxBins:整數,可選
用於分割要素的最大箱數。 DecisionTree 要求 maxBins >= 最大類別。 (默認值:32)
參數:
返回:
例子:
>>> from pyspark.mllib.regression import LabeledPoint >>> from pyspark.mllib.tree import GradientBoostedTrees >>> from pyspark.mllib.linalg import SparseVector >>> >>> sparse_data = [ ... LabeledPoint(0.0, SparseVector(2, {0: 1.0})), ... LabeledPoint(1.0, SparseVector(2, {1: 1.0})), ... LabeledPoint(0.0, SparseVector(2, {0: 1.0})), ... LabeledPoint(1.0, SparseVector(2, {1: 2.0})) ... ] >>> >>> data = sc.parallelize(sparse_data) >>> model = GradientBoostedTrees.trainRegressor(data, {}, numIterations=10) >>> model.numTrees() 10 >>> model.totalNumNodes() 12 >>> model.predict(SparseVector(2, {1: 1.0})) 1.0 >>> model.predict(SparseVector(2, {0: 1.0})) 0.0 >>> rdd = sc.parallelize([[0.0, 1.0], [1.0, 0.0]]) >>> model.predict(rdd).collect() [1.0, 0.0]
相關用法
- Python pyspark GradientBoostedTrees.trainClassifier用法及代碼示例
- Python pyspark GroupBy.mean用法及代碼示例
- Python pyspark GroupBy.head用法及代碼示例
- Python pyspark GroupedData.applyInPandas用法及代碼示例
- Python pyspark GroupBy.cumsum用法及代碼示例
- Python pyspark GroupBy.rank用法及代碼示例
- Python pyspark GroupBy.bfill用法及代碼示例
- Python pyspark GroupBy.cummin用法及代碼示例
- Python pyspark GroupBy.cummax用法及代碼示例
- Python pyspark GroupedData.mean用法及代碼示例
- Python pyspark GroupBy.fillna用法及代碼示例
- Python pyspark GroupBy.apply用法及代碼示例
- Python pyspark GroupedData.agg用法及代碼示例
- Python pyspark GroupedData.pivot用法及代碼示例
- Python pyspark GroupBy.diff用法及代碼示例
- Python pyspark GroupBy.filter用法及代碼示例
- Python pyspark GroupBy.transform用法及代碼示例
- Python pyspark GroupedData.apply用法及代碼示例
- Python pyspark GroupBy.cumcount用法及代碼示例
- Python pyspark GroupedData.max用法及代碼示例
- Python pyspark GroupedData.count用法及代碼示例
- Python pyspark GroupedData.min用法及代碼示例
- Python pyspark GroupBy.idxmax用法及代碼示例
- Python pyspark GroupBy.shift用法及代碼示例
- Python pyspark GroupBy.idxmin用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.mllib.tree.GradientBoostedTrees.trainRegressor。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。