Python PySpark DataFrame corr方法用法及代碼示例

PySpark DataFrame 的 corr(~) 方法以浮點形式返回指定數字列的相關性。

參數

1. col1 | string

第一欄。

2. col2 | string

第二欄。

3. method | string | optional

要計算的相關性類型。當前唯一支持的關聯類型是皮爾遜相關係數.

返回值

一個float。

例子

考慮以下PySpark DataFrame：

df = spark.createDataFrame([("Alex", 180, 80), ("Bob", 170, 70), ("Cathy", 160, 70)], ["name", "height", "weight"])
df.show()



+-----+------+------+
| name|height|weight|
+-----+------+------+
| Alex|   180|    80|
|  Bob|   170|    70|
|Cathy|   160|    70|
+-----+------+------+

計算兩個數字 PySpark 列的相關性

要計算 height 和 weight 列之間的相關性：

df.corr("height","weight")



0.8660254037844387

在這裏，我們看到height和weight與a呈正相關皮爾遜相關係數周圍的0.87.

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | corr method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。