说明:
计算数字和字符串列的指定统计信息。可用的统计数据有:
count
mean
stddev
min
max
指定为百分比的任意近似百分位数(例如,"75%")
如果没有给出统计数据,此函数计算计数、平均值、标准差、最小值、近似四分位数(25%、50% 和 75% 处的百分位数)和最大值。此函数用于探索性数据分析,因为我们不保证生成的数据集模式的向后兼容性。如果要以编程方式计算汇总统计信息,请改用 agg
函数。
用法:
summary(object, ...)
## S4 method for signature 'SparkDataFrame'
summary(object, ...)
参数:
object
要总结的 SparkDataFrame。...
(可选)要为所有列计算的统计信息。
返回:
一个 SparkDataFrame。
注意:
摘要(SparkDataFrame)自 1.5.0 起
summary
提供的统计数据在 2.3.0 中发生了变化,使用 describe 作为以前的默认值。
例子:
sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
summary(df)
summary(df, "min", "25%", "75%", "max")
summary(select(df, "age", "height"))
相关用法
- R SparkR summarize用法及代码示例
- R SparkR subset用法及代码示例
- R SparkR substr用法及代码示例
- R SparkR spark.decisionTree用法及代码示例
- R SparkR sparkR.callJMethod用法及代码示例
- R SparkR sample用法及代码示例
- R SparkR str用法及代码示例
- R SparkR spark.powerIterationClustering用法及代码示例
- R SparkR spark.svmLinear用法及代码示例
- R SparkR spark.gaussianMixture用法及代码示例
- R SparkR storageLevel用法及代码示例
- R SparkR structField用法及代码示例
- R SparkR sparkR.newJObject用法及代码示例
- R SparkR spark.naiveBayes用法及代码示例
- R SparkR sparkR.version用法及代码示例
- R SparkR spark.getSparkFiles用法及代码示例
- R SparkR setLogLevel用法及代码示例
- R SparkR spark.survreg用法及代码示例
- R SparkR sparkR.session用法及代码示例
- R SparkR selectExpr用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 summary。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。