Python pyspark LogisticRegressionWithLBFGS.train用法及代码示例

本文简要介绍 pyspark.mllib.classification.LogisticRegressionWithLBFGS.train 的用法。

用法: classmethod train(data, iterations=100, initialWeights=None, regParam=0.0, regType='l2', intercept=False, corrections=10, tolerance=1e-06, validateData=True, numClasses=2)

在给定数据上训练逻辑回归模型。

版本 1.2.0 中的新函数。

参数：

data：pyspark.RDD

训练数据，RDD 为 pyspark.mllib.regression.LabeledPoint 。

iterations：整数，可选

迭代次数。 (默认值：100)

initialWeights： pyspark.mllib.linalg.Vector 或敞篷车，可选

初始权重。 (默认：无)

regParam：浮点数，可选

正则化参数。 (默认值：0.01)

regType：str，可选

用于训练我们的模型的正则化器类型。支持的值：

“l1” 用于使用 L1 正则化
“l2” 用于使用 L2 正则化(默认)
None 表示没有正则化

intercept：布尔型，可选

布尔参数，指示是否使用训练数据的增强表示(即，是否激活偏差特征)。 (默认：假)

corrections：整数，可选

LBFGS 更新中使用的更正次数。如果一个已知的更新器用于二进制分类，它会调用 ml 实现，这个参数将不起作用。 (默认值：10)

tolerance：浮点数，可选

L-BFGS 的迭代收敛容差。 (默认值：1e-6)

validateData：布尔型，可选

布尔参数，指示算法是否应在训练前验证数据。 (默认：真)

numClasses：整数，可选

标签可以在多项 Logistic 回归中采用的类数(即结果)。 (默认值：2)

例子：

>>> data = [
...     LabeledPoint(0.0, [0.0, 1.0]),
...     LabeledPoint(1.0, [1.0, 0.0]),
... ]
>>> lrm = LogisticRegressionWithLBFGS.train(sc.parallelize(data), iterations=10)
>>> lrm.predict([1.0, 0.0])
1
>>> lrm.predict([0.0, 1.0])
0

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.mllib.classification.LogisticRegressionWithLBFGS.train。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。