Python pyspark Statistics.colStats用法及代码示例

本文简要介绍 pyspark.mllib.stat.Statistics.colStats 的用法。

用法: static colStats(rdd)

计算输入 RDD[Vector] 的按列汇总统计。

参数：

rdd：pyspark.RDD: 一个 RDD[Vector] ，将为其计算按列的汇总统计信息。

MultivariateStatisticalSummary: 包含按列汇总统计信息的对象。

例子：

>>> from pyspark.mllib.linalg import Vectors
>>> rdd = sc.parallelize([Vectors.dense([2, 0, 0, -2]),
...                       Vectors.dense([4, 5, 0,  3]),
...                       Vectors.dense([6, 7, 0,  8])])
>>> cStats = Statistics.colStats(rdd)
>>> cStats.mean()
array([ 4.,  4.,  0.,  3.])
>>> cStats.variance()
array([  4.,  13.,   0.,  25.])
>>> cStats.count()
3
>>> cStats.numNonzeros()
array([ 3.,  2.,  0.,  3.])
>>> cStats.max()
array([ 6.,  7.,  0.,  8.])
>>> cStats.min()
array([ 2.,  0.,  0., -2.])

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.mllib.stat.Statistics.colStats。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：