當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R corrr correlate 相關 DataFrame


stats::cor() 的實現,它返回相關數據幀而不是矩陣。請參閱下麵的詳細信息。其他調整包括默認使用成對刪除。

用法

correlate(
  x,
  y = NULL,
  use = "pairwise.complete.obs",
  method = "pearson",
  diagonal = NA,
  quiet = FALSE
)

參數

x

數值向量、矩陣或 DataFrame 。

y

NULL (默認)或與 x 具有兼容尺寸的向量、矩陣或 DataFrame 。默認值相當於y = x(但效率更高)。

use

一個可選字符串,提供在存在缺失值的情況下計算協方差的方法。這必須是字符串 "everything""all.obs""complete.obs""na.or.complete""pairwise.complete.obs" 之一(的縮寫)。

method

指示要計算哪個相關係數(或協方差)的字符串。 "pearson" (默認)、"kendall""spearman" 之一:可以縮寫。

diagonal

將對角線設置為的值(通常為數字或 NA)

quiet

設置為 TRUE 可抑製有關 methoduse 參數的消息。

相關數據幀cor_df

細節

該函數返回一個相關矩陣作為相關數據幀,格式如下:

  • 一個小標題(參見tibble)

  • 附加課程"cor_df"

  • "term" 列

  • 標準化方差(矩陣對角線)默認設置為缺失值 ( NA ),因此在計算中可以忽略它們。

use 參數及其可能值繼承自 stats::cor()

  • "everything":NA 將在概念上傳播,即每當其貢獻觀察值之一為 NA 時,結果值將為 NA

  • "all.obs":缺少觀測值的存在將產生錯誤

  • "complete.obs":相關性將從完整的觀察結果中計算出來,如果沒有完整的案例,則會出現錯誤。

  • "na.or.complete":相關性將從完整的觀察結果中計算出來,如果沒有完整的案例,則返回 NA。

  • "pairwise.complete.obs":每對變量之間的相關性是使用這些特定變量的所有完整對來計算的。

從版本 0.4.3 開始,cor_df 對象的第一列名為 "term"。在以前的版本中,第一列被命名為"rowname"。

有一種 ggplot2::autoplot() 方法可以快速可視化相關矩陣,有關更多信息,請參閱 autoplot.cor_df()

例子

if (FALSE) {
correlate(iris)
}

correlate(iris[-5])
#> Correlation computed with
#> • Method: 'pearson'
#> • Missing treated using: 'pairwise.complete.obs'
#> # A tibble: 4 × 5
#>   term         Sepal.Length Sepal.Width Petal.Length Petal.Width
#>   <chr>               <dbl>       <dbl>        <dbl>       <dbl>
#> 1 Sepal.Length       NA          -0.118        0.872       0.818
#> 2 Sepal.Width        -0.118      NA           -0.428      -0.366
#> 3 Petal.Length        0.872      -0.428       NA           0.963
#> 4 Petal.Width         0.818      -0.366        0.963      NA    

correlate(mtcars)
#> Correlation computed with
#> • Method: 'pearson'
#> • Missing treated using: 'pairwise.complete.obs'
#> # A tibble: 11 × 12
#>    term     mpg    cyl   disp     hp    drat     wt    qsec     vs      am
#>    <chr>  <dbl>  <dbl>  <dbl>  <dbl>   <dbl>  <dbl>   <dbl>  <dbl>   <dbl>
#>  1 mpg   NA     -0.852 -0.848 -0.776  0.681  -0.868  0.419   0.664  0.600 
#>  2 cyl   -0.852 NA      0.902  0.832 -0.700   0.782 -0.591  -0.811 -0.523 
#>  3 disp  -0.848  0.902 NA      0.791 -0.710   0.888 -0.434  -0.710 -0.591 
#>  4 hp    -0.776  0.832  0.791 NA     -0.449   0.659 -0.708  -0.723 -0.243 
#>  5 drat   0.681 -0.700 -0.710 -0.449 NA      -0.712  0.0912  0.440  0.713 
#>  6 wt    -0.868  0.782  0.888  0.659 -0.712  NA     -0.175  -0.555 -0.692 
#>  7 qsec   0.419 -0.591 -0.434 -0.708  0.0912 -0.175 NA       0.745 -0.230 
#>  8 vs     0.664 -0.811 -0.710 -0.723  0.440  -0.555  0.745  NA      0.168 
#>  9 am     0.600 -0.523 -0.591 -0.243  0.713  -0.692 -0.230   0.168 NA     
#> 10 gear   0.480 -0.493 -0.556 -0.126  0.700  -0.583 -0.213   0.206  0.794 
#> 11 carb  -0.551  0.527  0.395  0.750 -0.0908  0.428 -0.656  -0.570  0.0575
#> # … with 2 more variables: gear <dbl>, carb <dbl>
#> # ℹ Use `colnames()` to see all variable names
if (FALSE) {

# Also supports DB backend and collects results into memory

library(sparklyr)
sc <- spark_connect(master = "local")
mtcars_tbl <- copy_to(sc, mtcars)
mtcars_tbl %>%
  correlate(use = "pairwise.complete.obs", method = "spearman")
spark_disconnect(sc)
}

源代碼:R/correlate.R

相關用法


注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Correlation Data Frame。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。