当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.corr用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.corr 的用法。

用法:

DataFrame.corr(method: str = 'pearson') → pyspark.pandas.frame.DataFrame

计算列的成对相关性,不包括 NA/null 值。

参数

method{‘pearson’, ‘spearman’}
  • 皮尔逊:标准相关系数

  • spearman:Spearman 等级相关性

返回

yDataFrame

注意

pandas-on-Spark 和 pandas 之间存在行为差异。

  • method 参数只接受 ‘pearson’, ‘spearman’

  • 数据不应包含 NaN。 pandas-on-Spark 将返回错误。

  • pandas-on-Spark 不支持以下参数。

    • min_periods 参数不受支持

例子

>>> df = ps.DataFrame([(.2, .3), (.0, .6), (.6, .0), (.2, .1)],
...                   columns=['dogs', 'cats'])
>>> df.corr('pearson')
          dogs      cats
dogs  1.000000 -0.851064
cats -0.851064  1.000000
>>> df.corr('spearman')
          dogs      cats
dogs  1.000000 -0.948683
cats -0.948683  1.000000

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.corr。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。