當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R yardstick summary.conf_mat 混淆矩陣的匯總統計


混淆矩陣的各種統計摘要在小標題中生成和返回。其中包括 sens()recall()accuracy() 等幫助頁麵中顯示的內容。

用法

# S3 method for conf_mat
summary(
  object,
  prevalence = NULL,
  beta = 1,
  estimator = NULL,
  event_level = yardstick_event_level(),
  ...
)

參數

object

conf_mat() 的對象。

prevalence

(0, 1) 中的數字表示事件的發生率(即之前的事件)。如果保留默認值,則使用數據來導出該值。

beta

用於衡量f_meas() 的精度和召回率的數值。

estimator

其中之一: "binary""macro""macro_weighted""micro" 指定要完成的平均類型。 "binary" 僅與兩類情況相關。其他三種是計算多類指標的通用方法。默認會根據 estimate 自動選擇 "binary""macro"

event_level

單個字符串。 "first""second" 指定將truth 的哪個級別視為"event"。此參數僅適用於 estimator = "binary" 。默認使用內部幫助程序,通常默認為 "first" ,但是,如果設置了已棄用的全局選項 yardstick.event_first ,則將使用該幫助程序並發出警告。

...

目前未使用。

包含各種分類指標的小標題。

相關級別

在計算二元分類指標時,對於哪個因子級別應自動被視為 "event" 或 "positive" 結果,沒有通用約定。在 yardstick 中,默認使用第一級。要更改此設置,請將參數 event_level 更改為 "second" 以將因子的最後一個級別視為感興趣級別。對於涉及 one-vs-all 比較(例如宏平均)的多類擴展,此選項將被忽略,並且 "one" 級別始終是相關結果。

也可以看看

例子

data("two_class_example")

cmat <- conf_mat(two_class_example, truth = "truth", estimate = "predicted")
summary(cmat)
#> # A tibble: 13 × 3
#>    .metric              .estimator .estimate
#>    <chr>                <chr>          <dbl>
#>  1 accuracy             binary         0.838
#>  2 kap                  binary         0.675
#>  3 sens                 binary         0.880
#>  4 spec                 binary         0.793
#>  5 ppv                  binary         0.819
#>  6 npv                  binary         0.861
#>  7 mcc                  binary         0.677
#>  8 j_index              binary         0.673
#>  9 bal_accuracy         binary         0.837
#> 10 detection_prevalence binary         0.554
#> 11 precision            binary         0.819
#> 12 recall               binary         0.880
#> 13 f_meas               binary         0.849
summary(cmat, prevalence = 0.70)
#> # A tibble: 13 × 3
#>    .metric              .estimator .estimate
#>    <chr>                <chr>          <dbl>
#>  1 accuracy             binary         0.838
#>  2 kap                  binary         0.675
#>  3 sens                 binary         0.880
#>  4 spec                 binary         0.793
#>  5 ppv                  binary         0.909
#>  6 npv                  binary         0.739
#>  7 mcc                  binary         0.677
#>  8 j_index              binary         0.673
#>  9 bal_accuracy         binary         0.837
#> 10 detection_prevalence binary         0.554
#> 11 precision            binary         0.819
#> 12 recall               binary         0.880
#> 13 f_meas               binary         0.849

library(dplyr)
library(tidyr)
data("hpc_cv")

# Compute statistics per resample then summarize
all_metrics <- hpc_cv %>%
  group_by(Resample) %>%
  conf_mat(obs, pred) %>%
  mutate(summary_tbl = lapply(conf_mat, summary)) %>%
  unnest(summary_tbl)

all_metrics %>%
  group_by(.metric) %>%
  summarise(
    mean = mean(.estimate, na.rm = TRUE),
    sd = sd(.estimate, na.rm = TRUE)
  )
#> # A tibble: 13 × 3
#>    .metric               mean       sd
#>    <chr>                <dbl>    <dbl>
#>  1 accuracy             0.709 2.47e- 2
#>  2 bal_accuracy         0.720 1.92e- 2
#>  3 detection_prevalence 0.25  9.25e-18
#>  4 f_meas               0.569 3.46e- 2
#>  5 j_index              0.439 3.85e- 2
#>  6 kap                  0.508 4.10e- 2
#>  7 mcc                  0.515 4.16e- 2
#>  8 npv                  0.896 1.11e- 2
#>  9 ppv                  0.633 3.87e- 2
#> 10 precision            0.633 3.87e- 2
#> 11 recall               0.560 3.09e- 2
#> 12 sens                 0.560 3.09e- 2
#> 13 spec                 0.879 9.67e- 3
源代碼:R/conf_mat.R

相關用法


注:本文由純淨天空篩選整理自Max Kuhn等大神的英文原創作品 Summary Statistics for Confusion Matrices。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。