當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R SparkR summary用法及代碼示例


說明:

計算數字和字符串列的指定統計信息。可用的統計數據有:

  • count

  • mean

  • stddev

  • min

  • max

  • 指定為百分比的任意近似百分位數(例如,"75%")

如果沒有給出統計數據,此函數計算計數、平均值、標準差、最小值、近似四分位數(25%、50% 和 75% 處的百分位數)和最大值。此函數用於探索性數據分析,因為我們不保證生成的數據集模式的向後兼容性。如果要以編程方式計算匯總統計信息,請改用 agg 函數。

用法:

summary(object, ...)

## S4 method for signature 'SparkDataFrame'
summary(object, ...)

參數:

  • object 要總結的 SparkDataFrame。
  • ... (可選)要為所有列計算的統計信息。

返回:

一個 SparkDataFrame。

注意:

摘要(SparkDataFrame)自 1.5.0 起

summary 提供的統計數據在 2.3.0 中發生了變化,使用 describe 作為以前的默認值。

例子:

sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
summary(df)
summary(df, "min", "25%", "75%", "max")
summary(select(df, "age", "height"))

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 summary。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。