當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark Statistics.colStats用法及代碼示例


本文簡要介紹 pyspark.mllib.stat.Statistics.colStats 的用法。

用法:

static colStats(rdd)

計算輸入 RDD[Vector] 的按列匯總統計。

參數

rddpyspark.RDD

一個 RDD[Vector] ,將為其計算按列的匯總統計信息。

返回

MultivariateStatisticalSummary

包含按列匯總統計信息的對象。

例子

>>> from pyspark.mllib.linalg import Vectors
>>> rdd = sc.parallelize([Vectors.dense([2, 0, 0, -2]),
...                       Vectors.dense([4, 5, 0,  3]),
...                       Vectors.dense([6, 7, 0,  8])])
>>> cStats = Statistics.colStats(rdd)
>>> cStats.mean()
array([ 4.,  4.,  0.,  3.])
>>> cStats.variance()
array([  4.,  13.,   0.,  25.])
>>> cStats.count()
3
>>> cStats.numNonzeros()
array([ 3.,  2.,  0.,  3.])
>>> cStats.max()
array([ 6.,  7.,  0.,  8.])
>>> cStats.min()
array([ 2.,  0.,  0., -2.])

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.mllib.stat.Statistics.colStats。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。