Python pyspark Statistics.colStats用法及代碼示例

本文簡要介紹 pyspark.mllib.stat.Statistics.colStats 的用法。

用法: static colStats(rdd)

計算輸入 RDD[Vector] 的按列匯總統計。

參數：

rdd：pyspark.RDD: 一個 RDD[Vector] ，將為其計算按列的匯總統計信息。

MultivariateStatisticalSummary: 包含按列匯總統計信息的對象。

例子：

>>> from pyspark.mllib.linalg import Vectors
>>> rdd = sc.parallelize([Vectors.dense([2, 0, 0, -2]),
...                       Vectors.dense([4, 5, 0,  3]),
...                       Vectors.dense([6, 7, 0,  8])])
>>> cStats = Statistics.colStats(rdd)
>>> cStats.mean()
array([ 4.,  4.,  0.,  3.])
>>> cStats.variance()
array([  4.,  13.,   0.,  25.])
>>> cStats.count()
3
>>> cStats.numNonzeros()
array([ 3.,  2.,  0.,  3.])
>>> cStats.max()
array([ 6.,  7.,  0.,  8.])
>>> cStats.min()
array([ 2.,  0.,  0., -2.])

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.mllib.stat.Statistics.colStats。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：