本文簡要介紹
pyspark.mllib.stat.Statistics.colStats
的用法。用法:
static colStats(rdd)
計算輸入 RDD[Vector] 的按列匯總統計。
- rdd:
pyspark.RDD
一個 RDD[Vector] ,將為其計算按列的匯總統計信息。
- rdd:
MultivariateStatisticalSummary
包含按列匯總統計信息的對象。
參數:
返回:
例子:
>>> from pyspark.mllib.linalg import Vectors >>> rdd = sc.parallelize([Vectors.dense([2, 0, 0, -2]), ... Vectors.dense([4, 5, 0, 3]), ... Vectors.dense([6, 7, 0, 8])]) >>> cStats = Statistics.colStats(rdd) >>> cStats.mean() array([ 4., 4., 0., 3.]) >>> cStats.variance() array([ 4., 13., 0., 25.]) >>> cStats.count() 3 >>> cStats.numNonzeros() array([ 3., 2., 0., 3.]) >>> cStats.max() array([ 6., 7., 0., 8.]) >>> cStats.min() array([ 2., 0., 0., -2.])
相關用法
- Python pyspark Statistics.corr用法及代碼示例
- Python pyspark Statistics.chiSqTest用法及代碼示例
- Python pyspark Statistics.kolmogorovSmirnovTest用法及代碼示例
- Python pyspark StandardScaler用法及代碼示例
- Python pyspark StopWordsRemover用法及代碼示例
- Python pyspark StructType用法及代碼示例
- Python pyspark StreamingQueryManager.get用法及代碼示例
- Python pyspark StructField用法及代碼示例
- Python pyspark StringIndexer用法及代碼示例
- Python pyspark StreamingQueryManager.resetTerminated用法及代碼示例
- Python pyspark StreamingKMeansModel用法及代碼示例
- Python pyspark StructType.fieldNames用法及代碼示例
- Python pyspark StreamingQueryManager.active用法及代碼示例
- Python pyspark StructType.add用法及代碼示例
- Python pyspark StreamingQuery.explain用法及代碼示例
- Python pyspark Series.asof用法及代碼示例
- Python pyspark Series.to_frame用法及代碼示例
- Python pyspark Series.rsub用法及代碼示例
- Python pyspark Series.mod用法及代碼示例
- Python pyspark Series.str.join用法及代碼示例
- Python pyspark Series.str.startswith用法及代碼示例
- Python pyspark Series.dt.is_quarter_end用法及代碼示例
- Python pyspark Series.dropna用法及代碼示例
- Python pyspark Series.sub用法及代碼示例
- Python pyspark Series.sum用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.mllib.stat.Statistics.colStats。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。