当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark Series.corr用法及代码示例


本文简要介绍 pyspark.pandas.Series.corr 的用法。

用法:

Series.corr(other: pyspark.pandas.series.Series, method: str = 'pearson') → float

计算与other 系列的相关性,不包括缺失值。

参数

otherSeries
method{‘pearson’, ‘spearman’}
  • 皮尔逊:标准相关系数

  • spearman:Spearman 等级相关性

返回

correlation浮点数

注意

pandas-on-Spark 和 pandas 之间存在行为差异。

  • method 参数只接受 ‘pearson’, ‘spearman’

  • 数据不应包含 NaN。 pandas-on-Spark 将返回错误。

  • pandas-on-Spark 不支持以下参数。

    • min_periods 参数不受支持

例子

>>> df = ps.DataFrame({'s1': [.2, .0, .6, .2],
...                    's2': [.3, .6, .0, .1]})
>>> s1 = df.s1
>>> s2 = df.s2
>>> s1.corr(s2, method='pearson')  
-0.851064...
>>> s1.corr(s2, method='spearman')  
-0.948683...

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.corr。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。