Python pyspark Series.corr用法及代码示例

本文简要介绍 pyspark.pandas.Series.corr 的用法。

用法: Series.corr(other: pyspark.pandas.series.Series, method: str = 'pearson') → float

计算与other 系列的相关性，不包括缺失值。

参数：

other：Series

method：{‘pearson’, ‘spearman’}

皮尔逊：标准相关系数
spearman：Spearman 等级相关性

correlation：浮点数

注意：

pandas-on-Spark 和 pandas 之间存在行为差异。

method 参数只接受 ‘pearson’, ‘spearman’
数据不应包含 NaN。 pandas-on-Spark 将返回错误。
pandas-on-Spark 不支持以下参数。
- min_periods 参数不受支持

例子：

>>> df = ps.DataFrame({'s1': [.2, .0, .6, .2],
...                    's2': [.3, .6, .0, .1]})
>>> s1 = df.s1
>>> s2 = df.s2
>>> s1.corr(s2, method='pearson')  
-0.851064...

>>> s1.corr(s2, method='spearman')  
-0.948683...

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.corr。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

注意：

例子：