当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark Statistics.colStats用法及代码示例


本文简要介绍 pyspark.mllib.stat.Statistics.colStats 的用法。

用法:

static colStats(rdd)

计算输入 RDD[Vector] 的按列汇总统计。

参数

rddpyspark.RDD

一个 RDD[Vector] ,将为其计算按列的汇总统计信息。

返回

MultivariateStatisticalSummary

包含按列汇总统计信息的对象。

例子

>>> from pyspark.mllib.linalg import Vectors
>>> rdd = sc.parallelize([Vectors.dense([2, 0, 0, -2]),
...                       Vectors.dense([4, 5, 0,  3]),
...                       Vectors.dense([6, 7, 0,  8])])
>>> cStats = Statistics.colStats(rdd)
>>> cStats.mean()
array([ 4.,  4.,  0.,  3.])
>>> cStats.variance()
array([  4.,  13.,   0.,  25.])
>>> cStats.count()
3
>>> cStats.numNonzeros()
array([ 3.,  2.,  0.,  3.])
>>> cStats.max()
array([ 6.,  7.,  0.,  8.])
>>> cStats.min()
array([ 2.,  0.,  0., -2.])

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.mllib.stat.Statistics.colStats。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。