本文簡要介紹
pyspark.mllib.tree.RandomForest.trainClassifier
的用法。用法:
classmethod trainClassifier(data, numClasses, categoricalFeaturesInfo, numTrees, featureSubsetStrategy='auto', impurity='gini', maxDepth=4, maxBins=32, seed=None)
為二元或多類分類訓練隨機森林模型。
版本 1.2.0 中的新函數。
- data:
pyspark.RDD
訓練數據集:LabeledPoint 的 RDD。標簽應采用值 {0, 1, ..., numClasses-1}。
- numClasses:int
分類的類數。
- categoricalFeaturesInfo:dict
Map存儲分類特征的數量。條目 (n -> k) 表示特征 n 是分類的,其中 k 個類別從 0 開始索引:{0, 1, ..., k-1}。
- numTrees:int
隨機森林中的樹數。
- featureSubsetStrategy:str,可選
在每個節點上考慮拆分的特征數。支持的值:“auto”, “all”, “sqrt”、“log2”、“onethird”。如果設置了“auto”,則根據numTrees設置該參數:如果numTrees == 1,設置為“all”;如果 numTrees > 1(森林)設置為 “sqrt”。 (默認:“auto”)
- impurity:str,可選
用於信息增益計算的標準。支持的值:“gini” 或“entropy”。 (默認:“gini”)
- maxDepth:整數,可選
樹的最大深度(例如,深度 0 表示 1 個葉節點,深度 1 表示 1 個內部節點 + 2 個葉節點)。 (默認:4)
- maxBins:整數,可選
用於分割要素的最大 bin 數。 (默認值:32)
- seed:整數,可選
用於引導和選擇特征子集的隨機種子。設置為 None 根據係統時間生成種子。 (默認:無)
- data:
RandomForestModel
可用於預測。
參數:
返回:
例子:
>>> from pyspark.mllib.regression import LabeledPoint >>> from pyspark.mllib.tree import RandomForest >>> >>> data = [ ... LabeledPoint(0.0, [0.0]), ... LabeledPoint(0.0, [1.0]), ... LabeledPoint(1.0, [2.0]), ... LabeledPoint(1.0, [3.0]) ... ] >>> model = RandomForest.trainClassifier(sc.parallelize(data), 2, {}, 3, seed=42) >>> model.numTrees() 3 >>> model.totalNumNodes() 7 >>> print(model) TreeEnsembleModel classifier with 3 trees >>> print(model.toDebugString()) TreeEnsembleModel classifier with 3 trees Tree 0: Predict: 1.0 Tree 1: If (feature 0 <= 1.5) Predict: 0.0 Else (feature 0 > 1.5) Predict: 1.0 Tree 2: If (feature 0 <= 1.5) Predict: 0.0 Else (feature 0 > 1.5) Predict: 1.0 >>> model.predict([2.0]) 1.0 >>> model.predict([0.0]) 0.0 >>> rdd = sc.parallelize([[3.0], [1.0]]) >>> model.predict(rdd).collect() [1.0, 0.0]
相關用法
- Python pyspark RandomForest.trainRegressor用法及代碼示例
- Python pyspark RandomForestRegressor用法及代碼示例
- Python pyspark RandomForestClassifier用法及代碼示例
- Python pyspark RandomRDDs.uniformRDD用法及代碼示例
- Python pyspark RandomRDDs.exponentialRDD用法及代碼示例
- Python pyspark RandomRDDs.gammaRDD用法及代碼示例
- Python pyspark RandomRDDs.normalVectorRDD用法及代碼示例
- Python pyspark RandomRDDs.uniformVectorRDD用法及代碼示例
- Python pyspark RandomRDDs.exponentialVectorRDD用法及代碼示例
- Python pyspark RandomRDDs.poissonVectorRDD用法及代碼示例
- Python pyspark RandomRDDs.poissonRDD用法及代碼示例
- Python pyspark RandomRDDs.gammaVectorRDD用法及代碼示例
- Python pyspark RandomRDDs.logNormalVectorRDD用法及代碼示例
- Python pyspark RandomRDDs.normalRDD用法及代碼示例
- Python pyspark RandomRDDs.logNormalRDD用法及代碼示例
- Python pyspark RankingEvaluator用法及代碼示例
- Python pyspark RankingMetrics用法及代碼示例
- Python pyspark Rating用法及代碼示例
- Python pyspark RDD.saveAsTextFile用法及代碼示例
- Python pyspark RDD.keyBy用法及代碼示例
- Python pyspark RDD.sumApprox用法及代碼示例
- Python pyspark RowMatrix.numCols用法及代碼示例
- Python pyspark RowMatrix.computePrincipalComponents用法及代碼示例
- Python pyspark RDD.lookup用法及代碼示例
- Python pyspark RDD.zipWithIndex用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.mllib.tree.RandomForest.trainClassifier。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。