Python pyspark LogisticRegressionWithLBFGS.train用法及代碼示例

本文簡要介紹 pyspark.mllib.classification.LogisticRegressionWithLBFGS.train 的用法。

用法: classmethod train(data, iterations=100, initialWeights=None, regParam=0.0, regType='l2', intercept=False, corrections=10, tolerance=1e-06, validateData=True, numClasses=2)

在給定數據上訓練邏輯回歸模型。

版本 1.2.0 中的新函數。

參數：

data：pyspark.RDD

訓練數據，RDD 為 pyspark.mllib.regression.LabeledPoint 。

iterations：整數，可選

迭代次數。 (默認值：100)

initialWeights： pyspark.mllib.linalg.Vector 或敞篷車，可選

初始權重。 (默認：無)

regParam：浮點數，可選

正則化參數。 (默認值：0.01)

regType：str，可選

用於訓練我們的模型的正則化器類型。支持的值：

“l1” 用於使用 L1 正則化
“l2” 用於使用 L2 正則化(默認)
None 表示沒有正則化

intercept：布爾型，可選

布爾參數，指示是否使用訓練數據的增強表示(即，是否激活偏差特征)。 (默認：假)

corrections：整數，可選

LBFGS 更新中使用的更正次數。如果一個已知的更新器用於二進製分類，它會調用 ml 實現，這個參數將不起作用。 (默認值：10)

tolerance：浮點數，可選

L-BFGS 的迭代收斂容差。 (默認值：1e-6)

validateData：布爾型，可選

布爾參數，指示算法是否應在訓練前驗證數據。 (默認：真)

numClasses：整數，可選

標簽可以在多項 Logistic 回歸中采用的類數(即結果)。 (默認值：2)

例子：

>>> data = [
...     LabeledPoint(0.0, [0.0, 1.0]),
...     LabeledPoint(1.0, [1.0, 0.0]),
... ]
>>> lrm = LogisticRegressionWithLBFGS.train(sc.parallelize(data), iterations=10)
>>> lrm.predict([1.0, 0.0])
1
>>> lrm.predict([0.0, 1.0])
0

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.mllib.classification.LogisticRegressionWithLBFGS.train。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。