當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


R SparkR spark.kstest用法及代碼示例

說明:

spark.kstest 對從連續分布中采樣的數據執行 two-sided Kolmogorov-Smirnov (KS) 測試。

通過比較樣本數據的經驗累積分布與理論分布之間的最大差異,我們可以為樣本數據來自該理論分布的零假設提供檢驗。

用戶可以調用summary獲取測試總結,調用print.summary.KSTest打印總結結果。

用法:

spark.kstest(data, ...)

## S4 method for signature 'SparkDataFrame'
spark.kstest(
  data,
  testCol = "test",
  nullHypothesis = c("norm"),
  distParams = c(0, 1)
)

## S4 method for signature 'KSTest'
summary(object)

## S3 method for class 'summary.KSTest'
print(x, ...)

參數:

  • data 用戶數據的 SparkDataFrame。
  • ... 傳遞給方法的附加參數。
  • testCol 測試數據來自的列名。它應該是 double 類型的列。
  • nullHypothesis 測試的理論分布的名稱。目前僅支持正態分布的"norm"
  • distParams 分布的參數。對於 nullHypothesis = "norm" ,我們可以提供分布的均值和標準差作為向量。如果沒有提供,則將使用標準法線。如果隻提供一個,則標準偏差將設置為 1。
  • object KSTest 的測試結果對象 spark.kstest
  • x summary 返回的 KSTest 的摘要對象。

返回:

spark.kstest 返回一個測試結果對象。

summary 返回KSTest對象的摘要信息,是一個列表。該列表包括p.value (p-value)、statistic(為測試計算的測試統計量)、nullHypothesis(帶有測試參數的零假設)和degreesOfFreedom(測試的自由度) .

注意:

spark.kstest 自 2.1.0 起

摘要(KSTest)自 2.1.0 起

從 2.1.0 開始的 print.summary.KSTest

例子:

data <- data.frame(test = c(0.1, 0.15, 0.2, 0.3, 0.25))
df <- createDataFrame(data)
test <- spark.kstest(df, "test", "norm", c(0, 1))

# get a summary of the test result
testSummary <- summary(test)
testSummary

# print out the summary in an organized way
print.summary.KSTest(testSummary)

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 (One-Sample) Kolmogorov-Smirnov Test。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。