当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark DataFrame cov方法用法及代码示例


PySpark DataFrame 的 cov(~) 方法以浮点形式返回两个指定数字列的协方差。

参数

1. col1 | string

第一栏。

2. col2 | string

第二栏。

返回值

一个float

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([("Alex", 180, 80), ("Bob", 170, 70), ("Cathy", 160, 70)], ["name", "height", "weight"])
df.show()



+-----+------+------+
| name|height|weight|
+-----+------+------+
| Alex|   180|    80|
|  Bob|   170|    70|
|Cathy|   160|    70|
+-----+------+------+

计算两个数字 PySpark 列的协方差

要计算 heightweight 列之间的协方差:

df.cov("height","weight")



50.0

在这里,我们看到heightweight 之间的协方差是50(正相关)。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | cov method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。