Python pyspark MLUtils.saveAsLibSVMFile用法及代码示例

本文简要介绍 pyspark.mllib.util.MLUtils.saveAsLibSVMFile 的用法。

用法: static saveAsLibSVMFile(data, dir)

以 LIBSVM 格式保存标记数据。

1.0.0 版中的新函数。

参数：

data：pyspark.RDD: 要保存的 RDD LabeledPoint
dir：str: 保存数据的目录

例子：

>>> from tempfile import NamedTemporaryFile
>>> from fileinput import input
>>> from pyspark.mllib.regression import LabeledPoint
>>> from glob import glob
>>> from pyspark.mllib.util import MLUtils
>>> examples = [LabeledPoint(1.1, Vectors.sparse(3, [(0, 1.23), (2, 4.56)])),
...             LabeledPoint(0.0, Vectors.dense([1.01, 2.02, 3.03]))]
>>> tempFile = NamedTemporaryFile(delete=True)
>>> tempFile.close()
>>> MLUtils.saveAsLibSVMFile(sc.parallelize(examples), tempFile.name)
>>> ''.join(sorted(input(glob(tempFile.name + "/part-0000*"))))
'0.0 1:1.01 2:2.02 3:3.03\n1.1 1:1.23 3:4.56\n'

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.mllib.util.MLUtils.saveAsLibSVMFile。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。