混淆矩陣的各種統計摘要在小標題中生成和返回。其中包括 sens()
、 recall()
和 accuracy()
等幫助頁麵中顯示的內容。
用法
# S3 method for conf_mat
summary(
object,
prevalence = NULL,
beta = 1,
estimator = NULL,
event_level = yardstick_event_level(),
...
)
參數
- object
-
類
conf_mat()
的對象。 - prevalence
-
(0, 1)
中的數字表示事件的發生率(即之前的事件)。如果保留默認值,則使用數據來導出該值。 - beta
-
用於衡量
f_meas()
的精度和召回率的數值。 - estimator
-
其中之一:
"binary"
、"macro"
、"macro_weighted"
或"micro"
指定要完成的平均類型。"binary"
僅與兩類情況相關。其他三種是計算多類指標的通用方法。默認會根據estimate
自動選擇"binary"
或"macro"
。 - event_level
-
單個字符串。
"first"
或"second"
指定將truth
的哪個級別視為"event"。此參數僅適用於estimator = "binary"
。默認使用內部幫助程序,通常默認為"first"
,但是,如果設置了已棄用的全局選項yardstick.event_first
,則將使用該幫助程序並發出警告。 - ...
-
目前未使用。
相關級別
在計算二元分類指標時,對於哪個因子級別應自動被視為 "event" 或 "positive" 結果,沒有通用約定。在 yardstick
中,默認使用第一級。要更改此設置,請將參數 event_level
更改為 "second"
以將因子的最後一個級別視為感興趣級別。對於涉及 one-vs-all 比較(例如宏平均)的多類擴展,此選項將被忽略,並且 "one" 級別始終是相關結果。
例子
data("two_class_example")
cmat <- conf_mat(two_class_example, truth = "truth", estimate = "predicted")
summary(cmat)
#> # A tibble: 13 × 3
#> .metric .estimator .estimate
#> <chr> <chr> <dbl>
#> 1 accuracy binary 0.838
#> 2 kap binary 0.675
#> 3 sens binary 0.880
#> 4 spec binary 0.793
#> 5 ppv binary 0.819
#> 6 npv binary 0.861
#> 7 mcc binary 0.677
#> 8 j_index binary 0.673
#> 9 bal_accuracy binary 0.837
#> 10 detection_prevalence binary 0.554
#> 11 precision binary 0.819
#> 12 recall binary 0.880
#> 13 f_meas binary 0.849
summary(cmat, prevalence = 0.70)
#> # A tibble: 13 × 3
#> .metric .estimator .estimate
#> <chr> <chr> <dbl>
#> 1 accuracy binary 0.838
#> 2 kap binary 0.675
#> 3 sens binary 0.880
#> 4 spec binary 0.793
#> 5 ppv binary 0.909
#> 6 npv binary 0.739
#> 7 mcc binary 0.677
#> 8 j_index binary 0.673
#> 9 bal_accuracy binary 0.837
#> 10 detection_prevalence binary 0.554
#> 11 precision binary 0.819
#> 12 recall binary 0.880
#> 13 f_meas binary 0.849
library(dplyr)
library(tidyr)
data("hpc_cv")
# Compute statistics per resample then summarize
all_metrics <- hpc_cv %>%
group_by(Resample) %>%
conf_mat(obs, pred) %>%
mutate(summary_tbl = lapply(conf_mat, summary)) %>%
unnest(summary_tbl)
all_metrics %>%
group_by(.metric) %>%
summarise(
mean = mean(.estimate, na.rm = TRUE),
sd = sd(.estimate, na.rm = TRUE)
)
#> # A tibble: 13 × 3
#> .metric mean sd
#> <chr> <dbl> <dbl>
#> 1 accuracy 0.709 2.47e- 2
#> 2 bal_accuracy 0.720 1.92e- 2
#> 3 detection_prevalence 0.25 9.25e-18
#> 4 f_meas 0.569 3.46e- 2
#> 5 j_index 0.439 3.85e- 2
#> 6 kap 0.508 4.10e- 2
#> 7 mcc 0.515 4.16e- 2
#> 8 npv 0.896 1.11e- 2
#> 9 ppv 0.633 3.87e- 2
#> 10 precision 0.633 3.87e- 2
#> 11 recall 0.560 3.09e- 2
#> 12 sens 0.560 3.09e- 2
#> 13 spec 0.879 9.67e- 3
相關用法
- R yardstick sens 靈敏度
- R yardstick smape 對稱平均絕對百分比誤差
- R yardstick spec 特異性
- R yardstick pr_auc 查準率曲線下麵積
- R yardstick accuracy 準確性
- R yardstick gain_capture 增益捕獲
- R yardstick pr_curve 精確率召回曲線
- R yardstick conf_mat 分類數據的混淆矩陣
- R yardstick mn_log_loss 多項數據的平均對數損失
- R yardstick rpd 性能與偏差之比
- R yardstick mae 平均絕對誤差
- R yardstick detection_prevalence 檢測率
- R yardstick bal_accuracy 平衡的精度
- R yardstick rpiq 績效與四分位間的比率
- R yardstick roc_aunp 使用先驗類別分布,每個類別相對於其他類別的 ROC 曲線下麵積
- R yardstick roc_curve 接收者算子曲線
- R yardstick rsq R 平方
- R yardstick msd 平均符號偏差
- R yardstick mpe 平均百分比誤差
- R yardstick iic 相關性理想指數
- R yardstick recall 記起
- R yardstick roc_aunu 使用均勻類別分布,每個類別相對於其他類別的 ROC 曲線下麵積
- R yardstick npv 陰性預測值
- R yardstick rmse 均方根誤差
- R yardstick rsq_trad R 平方 - 傳統
注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Summary Statistics for Confusion Matrices。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。