說明:
計算數字和字符串列的指定統計信息。可用的統計數據有:
count
mean
stddev
min
max
指定為百分比的任意近似百分位數(例如,"75%")
如果沒有給出統計數據,此函數計算計數、平均值、標準差、最小值、近似四分位數(25%、50% 和 75% 處的百分位數)和最大值。此函數用於探索性數據分析,因為我們不保證生成的數據集模式的向後兼容性。如果要以編程方式計算匯總統計信息,請改用 agg
函數。
用法:
summary(object, ...)
## S4 method for signature 'SparkDataFrame'
summary(object, ...)
參數:
object
要總結的 SparkDataFrame。...
(可選)要為所有列計算的統計信息。
返回:
一個 SparkDataFrame。
注意:
摘要(SparkDataFrame)自 1.5.0 起
summary
提供的統計數據在 2.3.0 中發生了變化,使用 describe 作為以前的默認值。
例子:
sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
summary(df)
summary(df, "min", "25%", "75%", "max")
summary(select(df, "age", "height"))
相關用法
- R SparkR summarize用法及代碼示例
- R SparkR subset用法及代碼示例
- R SparkR substr用法及代碼示例
- R SparkR spark.decisionTree用法及代碼示例
- R SparkR sparkR.callJMethod用法及代碼示例
- R SparkR sample用法及代碼示例
- R SparkR str用法及代碼示例
- R SparkR spark.powerIterationClustering用法及代碼示例
- R SparkR spark.svmLinear用法及代碼示例
- R SparkR spark.gaussianMixture用法及代碼示例
- R SparkR storageLevel用法及代碼示例
- R SparkR structField用法及代碼示例
- R SparkR sparkR.newJObject用法及代碼示例
- R SparkR spark.naiveBayes用法及代碼示例
- R SparkR sparkR.version用法及代碼示例
- R SparkR spark.getSparkFiles用法及代碼示例
- R SparkR setLogLevel用法及代碼示例
- R SparkR spark.survreg用法及代碼示例
- R SparkR sparkR.session用法及代碼示例
- R SparkR selectExpr用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 summary。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。