当前位置: 首页>>编程示例 >>用法及示例精选 >>正文

R SparkR summary用法及代码示例

说明：

计算数字和字符串列的指定统计信息。可用的统计数据有：

count
mean
stddev
min
max
指定为百分比的任意近似百分位数(例如，"75%")

如果没有给出统计数据，此函数计算计数、平均值、标准差、最小值、近似四分位数(25%、50% 和 75% 处的百分位数)和最大值。此函数用于探索性数据分析，因为我们不保证生成的数据集模式的向后兼容性。如果要以编程方式计算汇总统计信息，请改用 agg 函数。

用法：

summary(object, ...)

## S4 method for signature 'SparkDataFrame'
summary(object, ...)

参数：

object 要总结的 SparkDataFrame。
... (可选)要为所有列计算的统计信息。

返回：

一个 SparkDataFrame。

注意：

摘要(SparkDataFrame)自 1.5.0 起

summary 提供的统计数据在 2.3.0 中发生了变化，使用 describe 作为以前的默认值。

例子：

sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
summary(df)
summary(df, "min", "25%", "75%", "max")
summary(select(df, "age", "height"))

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 summary。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。