stats::cor() 的實現,它返回相關數據幀而不是矩陣。請參閱下麵的詳細信息。其他調整包括默認使用成對刪除。
用法
correlate(
x,
y = NULL,
use = "pairwise.complete.obs",
method = "pearson",
diagonal = NA,
quiet = FALSE
)
參數
- x
-
數值向量、矩陣或 DataFrame 。
- y
-
NULL
(默認)或與x
具有兼容尺寸的向量、矩陣或 DataFrame 。默認值相當於y = x
(但效率更高)。 - use
-
一個可選字符串,提供在存在缺失值的情況下計算協方差的方法。這必須是字符串
"everything"
、"all.obs"
、"complete.obs"
、"na.or.complete"
或"pairwise.complete.obs"
之一(的縮寫)。 - method
-
指示要計算哪個相關係數(或協方差)的字符串。
"pearson"
(默認)、"kendall"
或"spearman"
之一:可以縮寫。 - diagonal
-
將對角線設置為的值(通常為數字或 NA)
- quiet
-
設置為 TRUE 可抑製有關
method
和use
參數的消息。
細節
該函數返回一個相關矩陣作為相關數據幀,格式如下:
-
一個小標題(參見
tibble
) -
附加課程"cor_df"
-
"term" 列
-
標準化方差(矩陣對角線)默認設置為缺失值 (
NA
),因此在計算中可以忽略它們。
use
參數及其可能值繼承自 stats::cor()
:
-
"everything":NA 將在概念上傳播,即每當其貢獻觀察值之一為 NA 時,結果值將為 NA
-
"all.obs":缺少觀測值的存在將產生錯誤
-
"complete.obs":相關性將從完整的觀察結果中計算出來,如果沒有完整的案例,則會出現錯誤。
-
"na.or.complete":相關性將從完整的觀察結果中計算出來,如果沒有完整的案例,則返回 NA。
-
"pairwise.complete.obs":每對變量之間的相關性是使用這些特定變量的所有完整對來計算的。
從版本 0.4.3 開始,cor_df
對象的第一列名為 "term"。在以前的版本中,第一列被命名為"rowname"。
有一種 ggplot2::autoplot()
方法可以快速可視化相關矩陣,有關更多信息,請參閱 autoplot.cor_df()
。
例子
if (FALSE) {
correlate(iris)
}
correlate(iris[-5])
#> Correlation computed with
#> • Method: 'pearson'
#> • Missing treated using: 'pairwise.complete.obs'
#> # A tibble: 4 × 5
#> term Sepal.Length Sepal.Width Petal.Length Petal.Width
#> <chr> <dbl> <dbl> <dbl> <dbl>
#> 1 Sepal.Length NA -0.118 0.872 0.818
#> 2 Sepal.Width -0.118 NA -0.428 -0.366
#> 3 Petal.Length 0.872 -0.428 NA 0.963
#> 4 Petal.Width 0.818 -0.366 0.963 NA
correlate(mtcars)
#> Correlation computed with
#> • Method: 'pearson'
#> • Missing treated using: 'pairwise.complete.obs'
#> # A tibble: 11 × 12
#> term mpg cyl disp hp drat wt qsec vs am
#> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 mpg NA -0.852 -0.848 -0.776 0.681 -0.868 0.419 0.664 0.600
#> 2 cyl -0.852 NA 0.902 0.832 -0.700 0.782 -0.591 -0.811 -0.523
#> 3 disp -0.848 0.902 NA 0.791 -0.710 0.888 -0.434 -0.710 -0.591
#> 4 hp -0.776 0.832 0.791 NA -0.449 0.659 -0.708 -0.723 -0.243
#> 5 drat 0.681 -0.700 -0.710 -0.449 NA -0.712 0.0912 0.440 0.713
#> 6 wt -0.868 0.782 0.888 0.659 -0.712 NA -0.175 -0.555 -0.692
#> 7 qsec 0.419 -0.591 -0.434 -0.708 0.0912 -0.175 NA 0.745 -0.230
#> 8 vs 0.664 -0.811 -0.710 -0.723 0.440 -0.555 0.745 NA 0.168
#> 9 am 0.600 -0.523 -0.591 -0.243 0.713 -0.692 -0.230 0.168 NA
#> 10 gear 0.480 -0.493 -0.556 -0.126 0.700 -0.583 -0.213 0.206 0.794
#> 11 carb -0.551 0.527 0.395 0.750 -0.0908 0.428 -0.656 -0.570 0.0575
#> # … with 2 more variables: gear <dbl>, carb <dbl>
#> # ℹ Use `colnames()` to see all variable names
if (FALSE) {
# Also supports DB backend and collects results into memory
library(sparklyr)
sc <- spark_connect(master = "local")
mtcars_tbl <- copy_to(sc, mtcars)
mtcars_tbl %>%
correlate(use = "pairwise.complete.obs", method = "spearman")
spark_disconnect(sc)
}
相關用法
- R corrr colpair_map 將函數應用於 DataFrame 中的所有列對
- R corrr retract 從拉伸的相關表創建 DataFrame
- R corrr as_cordf 強製列表和矩陣關聯數據幀
- R corrr rearrange 重新排列相關 DataFrame
- R corrr pair_n 成對完整案例的數量。
- R corrr dice 返回僅包含選定字段的關聯表
- R corrr stretch 將相關數據幀拉伸為長格式。
- R corrr autoplot.cor_df 從 cor_df 對象創建相關矩陣
- R corrr as_matrix 將相關數據幀轉換為矩陣格式
- R corrr focus_if 有條件地聚焦相關 DataFrame
- R corrr rplot 繪製相關 DataFrame 。
- R corrr first_col 將第一列添加到 data.frame
- R corrr focus 關注相關 DataFrame 架的部分。
- R corrr shave 剃掉上/下三角形。
- R corrr fashion 設計用於打印的相關 DataFrame 架。
- R corrr network_plot 相關 DataFrame 的網絡圖
- R SparkR corr用法及代碼示例
- R findGlobals 查找閉包使用的全局函數和變量
- R SparkR count用法及代碼示例
- R SparkR column用法及代碼示例
- R SparkR columns用法及代碼示例
- R checkUsage 檢查 R 代碼是否存在可能的問題
- R showTree R 表達式的打印 Lisp 風格表示
- R compile 字節碼編譯器
- R SparkR cov用法及代碼示例
注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Correlation Data Frame。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。