Python PySpark DataFrame corr方法用法及代码示例

PySpark DataFrame 的 corr(~) 方法以浮点形式返回指定数字列的相关性。

参数

1. col1 | string

第一栏。

2. col2 | string

第二栏。

3. method | string | optional

要计算的相关性类型。当前唯一支持的关联类型是皮尔逊相关系数.

返回值

一个float。

例子

考虑以下PySpark DataFrame：

df = spark.createDataFrame([("Alex", 180, 80), ("Bob", 170, 70), ("Cathy", 160, 70)], ["name", "height", "weight"])
df.show()



+-----+------+------+
| name|height|weight|
+-----+------+------+
| Alex|   180|    80|
|  Bob|   170|    70|
|Cathy|   160|    70|
+-----+------+------+

计算两个数字 PySpark 列的相关性

要计算 height 和 weight 列之间的相关性：

df.corr("height","weight")



0.8660254037844387

在这里，我们看到height和weight与a呈正相关皮尔逊相关系数周围的0.87.

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | corr method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。