当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR summary用法及代码示例


说明:

计算数字和字符串列的指定统计信息。可用的统计数据有:

  • count

  • mean

  • stddev

  • min

  • max

  • 指定为百分比的任意近似百分位数(例如,"75%")

如果没有给出统计数据,此函数计算计数、平均值、标准差、最小值、近似四分位数(25%、50% 和 75% 处的百分位数)和最大值。此函数用于探索性数据分析,因为我们不保证生成的数据集模式的向后兼容性。如果要以编程方式计算汇总统计信息,请改用 agg 函数。

用法:

summary(object, ...)

## S4 method for signature 'SparkDataFrame'
summary(object, ...)

参数:

  • object 要总结的 SparkDataFrame。
  • ... (可选)要为所有列计算的统计信息。

返回:

一个 SparkDataFrame。

注意:

摘要(SparkDataFrame)自 1.5.0 起

summary 提供的统计数据在 2.3.0 中发生了变化,使用 describe 作为以前的默认值。

例子:

sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
summary(df)
summary(df, "min", "25%", "75%", "max")
summary(select(df, "age", "height"))

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 summary。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。