当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR spark.kstest用法及代码示例


说明:

spark.kstest 对从连续分布中采样的数据执行 two-sided Kolmogorov-Smirnov (KS) 测试。

通过比较样本数据的经验累积分布与理论分布之间的最大差异,我们可以为样本数据来自该理论分布的零假设提供检验。

用户可以调用summary获取测试总结,调用print.summary.KSTest打印总结结果。

用法:

spark.kstest(data, ...)

## S4 method for signature 'SparkDataFrame'
spark.kstest(
  data,
  testCol = "test",
  nullHypothesis = c("norm"),
  distParams = c(0, 1)
)

## S4 method for signature 'KSTest'
summary(object)

## S3 method for class 'summary.KSTest'
print(x, ...)

参数:

  • data 用户数据的 SparkDataFrame。
  • ... 传递给方法的附加参数。
  • testCol 测试数据来自的列名。它应该是 double 类型的列。
  • nullHypothesis 测试的理论分布的名称。目前仅支持正态分布的"norm"
  • distParams 分布的参数。对于 nullHypothesis = "norm" ,我们可以提供分布的均值和标准差作为向量。如果没有提供,则将使用标准法线。如果只提供一个,则标准偏差将设置为 1。
  • object KSTest 的测试结果对象 spark.kstest
  • x summary 返回的 KSTest 的摘要对象。

返回:

spark.kstest 返回一个测试结果对象。

summary 返回KSTest对象的摘要信息,是一个列表。该列表包括p.value (p-value)、statistic(为测试计算的测试统计量)、nullHypothesis(带有测试参数的零假设)和degreesOfFreedom(测试的自由度) .

注意:

spark.kstest 自 2.1.0 起

摘要(KSTest)自 2.1.0 起

从 2.1.0 开始的 print.summary.KSTest

例子:

data <- data.frame(test = c(0.1, 0.15, 0.2, 0.3, 0.25))
df <- createDataFrame(data)
test <- spark.kstest(df, "test", "norm", c(0, 1))

# get a summary of the test result
testSummary <- summary(test)
testSummary

# print out the summary in an organized way
print.summary.KSTest(testSummary)

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 (One-Sample) Kolmogorov-Smirnov Test。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。