当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python Pandas DataFrame corr方法用法及代码示例


Pandas DataFrame.corr(~) 方法计算源 DataFrame 中列的成对相关性。

注意

所有 NaN 值都将被忽略。

参数

1.method | stringcallable | optional

要计算的相关系数的类型:

说明

"pearson"

计算标准相关系数。

"kendall"

计算 Kendall Tau 相关系数。

"spearman"

计算斯皮尔曼等级相关性。

callable

该函数接受两个一维 Numpy 数组作为参数并返回单个浮点数。返回的矩阵始终是对称的,并且沿主对角线填充 1。

默认情况下,method="pearson"

2. min_periods | int | optional

计算相关性所需的非NaN 值的最小数量。

返回值

DataFrame 表示源 DataFrame 中值的相关矩阵。

例子

基本用法

考虑以下 DataFrame :

df = pd.DataFrame({"A":[8,5,2,1],"B":[3,4,5,9]})
df



   A  B
0  8  3
1  5  4
2  2  5
3  1  9

要计算两列的 "pearson" 相关性:

df.corr()



   A          B
A  1.000000   -0.841685
B  -0.841685  1.000000

我们得到的结果是列 AB 具有 -0.84 相关性。

指定min_periods

考虑以下 DataFrame :

df = pd.DataFrame({"A":[3,np.NaN,4],"B":[5,6,np.NaN]})
df



   A    B
0  3.0  5.0
1  NaN  6.0
2  4.0  NaN

设置 min_periods=3 会产生:

df.corr(min_periods=3)



   A    B
A  NaN  NaN
B  NaN  NaN

在这里,我们得到所有NaN的原因是,该方法忽略了NaN,因此每列只有2个值。由于我们已将计算相关性的最小阈值设置为 3 ,因此我们最终得到一个由 NaN 填充的 DataFrame 。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 Pandas DataFrame | corr method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。