Python pyspark StandardScaler用法及代码示例

本文简要介绍 pyspark.mllib.feature.StandardScaler 的用法。

用法: class pyspark.mllib.feature.StandardScaler(withMean=False, withStd=True)

通过使用训练集中样本的列汇总统计数据去除均值并缩放到单位方差来标准化特征。

版本 1.2.0 中的新函数。

参数：

withMean：布尔型，可选: 默认为假。在缩放之前以均值居中数据。它将构建一个密集的输出，因此在应用于稀疏输入时要小心。
withStd：布尔型，可选: 默认为真。将数据缩放到单位标准差。

例子：

>>> vs = [Vectors.dense([-2.0, 2.3, 0]), Vectors.dense([3.8, 0.0, 1.9])]
>>> dataset = sc.parallelize(vs)
>>> standardizer = StandardScaler(True, True)
>>> model = standardizer.fit(dataset)
>>> result = model.transform(dataset)
>>> for r in result.collect(): r
DenseVector([-0.7071, 0.7071, -0.7071])
DenseVector([0.7071, -0.7071, 0.7071])
>>> int(model.std[0])
4
>>> int(model.mean[0]*10)
9
>>> model.withStd
True
>>> model.withMean
True

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.mllib.feature.StandardScaler。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。