當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文

R SparkR summary用法及代碼示例

說明：

計算數字和字符串列的指定統計信息。可用的統計數據有：

count
mean
stddev
min
max
指定為百分比的任意近似百分位數(例如，"75%")

如果沒有給出統計數據，此函數計算計數、平均值、標準差、最小值、近似四分位數(25%、50% 和 75% 處的百分位數)和最大值。此函數用於探索性數據分析，因為我們不保證生成的數據集模式的向後兼容性。如果要以編程方式計算匯總統計信息，請改用 agg 函數。

用法：

summary(object, ...)

## S4 method for signature 'SparkDataFrame'
summary(object, ...)

參數：

object 要總結的 SparkDataFrame。
... (可選)要為所有列計算的統計信息。

返回：

一個 SparkDataFrame。

注意：

摘要(SparkDataFrame)自 1.5.0 起

summary 提供的統計數據在 2.3.0 中發生了變化，使用 describe 作為以前的默認值。

例子：

sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
summary(df)
summary(df, "min", "25%", "75%", "max")
summary(select(df, "age", "height"))

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 summary。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。