PySpark DataFrame 的 corr(~)
方法以浮点形式返回指定数字列的相关性。
参数
1. col1
| string
第一栏。
2. col2
| string
第二栏。
3. method
| string
| optional
要计算的相关性类型。当前唯一支持的关联类型是皮尔逊相关系数.
返回值
一个float
。
例子
考虑以下PySpark DataFrame:
df = spark.createDataFrame([("Alex", 180, 80), ("Bob", 170, 70), ("Cathy", 160, 70)], ["name", "height", "weight"])
df.show()
+-----+------+------+
| name|height|weight|
+-----+------+------+
| Alex| 180| 80|
| Bob| 170| 70|
|Cathy| 160| 70|
+-----+------+------+
计算两个数字 PySpark 列的相关性
要计算 height
和 weight
列之间的相关性:
df.corr("height","weight")
0.8660254037844387
在这里,我们看到height
和weight
与a呈正相关皮尔逊相关系数周围的0.87
.
相关用法
- Python Pandas DataFrame corrwith方法用法及代码示例
- Python Pandas DataFrame corr方法用法及代码示例
- Python Pandas DataFrame copy方法用法及代码示例
- Python PySpark DataFrame collect方法用法及代码示例
- Python PySpark DataFrame coalesce方法用法及代码示例
- Python Pandas DataFrame convert_dtypes方法用法及代码示例
- Python Pandas DataFrame combine方法用法及代码示例
- Python Pandas DataFrame columns属性用法及代码示例
- Python PySpark DataFrame cov方法用法及代码示例
- Python Pandas DataFrame count方法用法及代码示例
- Python PySpark DataFrame colRegex方法用法及代码示例
- Python PySpark DataFrame columns属性用法及代码示例
- Python PySpark DataFrame count方法用法及代码示例
- Python Pandas DataFrame combine_first方法用法及代码示例
- Python Pandas DataFrame cov方法用法及代码示例
- Python Pandas DataFrame clip方法用法及代码示例
- Python Pandas DataFrame cummax方法用法及代码示例
- Python Pandas DataFrame cumprod方法用法及代码示例
- Python Pandas DataFrame cummin方法用法及代码示例
- Python Pandas DataFrame cumsum方法用法及代码示例
- Python Pandas DataFrame empty属性用法及代码示例
- Python Pandas DataFrame pop方法用法及代码示例
- Python Pandas DataFrame nsmallest方法用法及代码示例
- Python Pandas DataFrame sample方法用法及代码示例
- Python Pandas DataFrame items方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | corr method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。