Python pyspark DataFrame.corr用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame.corr 的用法。

用法: DataFrame.corr(method: str = 'pearson') → pyspark.pandas.frame.DataFrame

计算列的成对相关性，不包括 NA/null 值。

参数：

method：{‘pearson’, ‘spearman’}

皮尔逊：标准相关系数
spearman：Spearman 等级相关性

y：DataFrame

注意：

pandas-on-Spark 和 pandas 之间存在行为差异。

method 参数只接受 ‘pearson’, ‘spearman’
数据不应包含 NaN。 pandas-on-Spark 将返回错误。
pandas-on-Spark 不支持以下参数。
- min_periods 参数不受支持

例子：

>>> df = ps.DataFrame([(.2, .3), (.0, .6), (.6, .0), (.2, .1)],
...                   columns=['dogs', 'cats'])
>>> df.corr('pearson')
          dogs      cats
dogs  1.000000 -0.851064
cats -0.851064  1.000000

>>> df.corr('spearman')
          dogs      cats
dogs  1.000000 -0.948683
cats -0.948683  1.000000

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.corr。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

注意：

例子：