当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark DataFrame corr方法用法及代码示例


PySpark DataFrame 的 corr(~) 方法以浮点形式返回指定数字列的相关性。

参数

1. col1 | string

第一栏。

2. col2 | string

第二栏。

3. method | string | optional

要计算的相关性类型。当前唯一支持的关联类型是皮尔逊相关系数.

返回值

一个float

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([("Alex", 180, 80), ("Bob", 170, 70), ("Cathy", 160, 70)], ["name", "height", "weight"])
df.show()



+-----+------+------+
| name|height|weight|
+-----+------+------+
| Alex|   180|    80|
|  Bob|   170|    70|
|Cathy|   160|    70|
+-----+------+------+

计算两个数字 PySpark 列的相关性

要计算 heightweight 列之间的相关性:

df.corr("height","weight")



0.8660254037844387

在这里,我们看到heightweight与a呈正相关皮尔逊相关系数周围的0.87.

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | corr method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。