当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark KolmogorovSmirnovTest.test用法及代码示例


本文简要介绍 pyspark.ml.stat.KolmogorovSmirnovTest.test 的用法。

用法:

static test(dataset, sampleCol, distName, *params)

对概率分布相等性进行单样本、两侧 Kolmogorov-Smirnov 测试。目前支持正态分布,以平均值和标准差作为参数。

2.4.0 版中的新函数。

参数

datasetDataFrame

包含要测试的数据样本的数据集或DataFrame。

sampleColstr

数据集中样本列的名称,任何数字类型。

distNamestr

理论分布的string 名称,目前仅支持“norm”。

params浮点数

float 值列表,指定用于理论分布的参数。对于“norm” 分布,参数包括均值和方差。

返回

DataFrame,包含输入采样数据的Kolmogorov-Smirnov 测试结果。
此 DataFrame 将包含具有以下字段的单行:
  • pValue: Double
  • statistic: Double

例子

>>> from pyspark.ml.stat import KolmogorovSmirnovTest
>>> dataset = [[-1.0], [0.0], [1.0]]
>>> dataset = spark.createDataFrame(dataset, ['sample'])
>>> ksResult = KolmogorovSmirnovTest.test(dataset, 'sample', 'norm', 0.0, 1.0).first()
>>> round(ksResult.pValue, 3)
1.0
>>> round(ksResult.statistic, 3)
0.175
>>> dataset = [[2.0], [3.0], [4.0]]
>>> dataset = spark.createDataFrame(dataset, ['sample'])
>>> ksResult = KolmogorovSmirnovTest.test(dataset, 'sample', 'norm', 3.0, 1.0).first()
>>> round(ksResult.pValue, 3)
1.0
>>> round(ksResult.statistic, 3)
0.175

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.stat.KolmogorovSmirnovTest.test。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。