混淆矩阵的各种统计摘要在小标题中生成和返回。其中包括 sens()
、 recall()
和 accuracy()
等帮助页面中显示的内容。
用法
# S3 method for conf_mat
summary(
object,
prevalence = NULL,
beta = 1,
estimator = NULL,
event_level = yardstick_event_level(),
...
)
参数
- object
-
类
conf_mat()
的对象。 - prevalence
-
(0, 1)
中的数字表示事件的发生率(即之前的事件)。如果保留默认值,则使用数据来导出该值。 - beta
-
用于衡量
f_meas()
的精度和召回率的数值。 - estimator
-
其中之一:
"binary"
、"macro"
、"macro_weighted"
或"micro"
指定要完成的平均类型。"binary"
仅与两类情况相关。其他三种是计算多类指标的通用方法。默认会根据estimate
自动选择"binary"
或"macro"
。 - event_level
-
单个字符串。
"first"
或"second"
指定将truth
的哪个级别视为"event"。此参数仅适用于estimator = "binary"
。默认使用内部帮助程序,通常默认为"first"
,但是,如果设置了已弃用的全局选项yardstick.event_first
,则将使用该帮助程序并发出警告。 - ...
-
目前未使用。
相关级别
在计算二元分类指标时,对于哪个因子级别应自动被视为 "event" 或 "positive" 结果,没有通用约定。在 yardstick
中,默认使用第一级。要更改此设置,请将参数 event_level
更改为 "second"
以将因子的最后一个级别视为感兴趣级别。对于涉及 one-vs-all 比较(例如宏平均)的多类扩展,此选项将被忽略,并且 "one" 级别始终是相关结果。
例子
data("two_class_example")
cmat <- conf_mat(two_class_example, truth = "truth", estimate = "predicted")
summary(cmat)
#> # A tibble: 13 × 3
#> .metric .estimator .estimate
#> <chr> <chr> <dbl>
#> 1 accuracy binary 0.838
#> 2 kap binary 0.675
#> 3 sens binary 0.880
#> 4 spec binary 0.793
#> 5 ppv binary 0.819
#> 6 npv binary 0.861
#> 7 mcc binary 0.677
#> 8 j_index binary 0.673
#> 9 bal_accuracy binary 0.837
#> 10 detection_prevalence binary 0.554
#> 11 precision binary 0.819
#> 12 recall binary 0.880
#> 13 f_meas binary 0.849
summary(cmat, prevalence = 0.70)
#> # A tibble: 13 × 3
#> .metric .estimator .estimate
#> <chr> <chr> <dbl>
#> 1 accuracy binary 0.838
#> 2 kap binary 0.675
#> 3 sens binary 0.880
#> 4 spec binary 0.793
#> 5 ppv binary 0.909
#> 6 npv binary 0.739
#> 7 mcc binary 0.677
#> 8 j_index binary 0.673
#> 9 bal_accuracy binary 0.837
#> 10 detection_prevalence binary 0.554
#> 11 precision binary 0.819
#> 12 recall binary 0.880
#> 13 f_meas binary 0.849
library(dplyr)
library(tidyr)
data("hpc_cv")
# Compute statistics per resample then summarize
all_metrics <- hpc_cv %>%
group_by(Resample) %>%
conf_mat(obs, pred) %>%
mutate(summary_tbl = lapply(conf_mat, summary)) %>%
unnest(summary_tbl)
all_metrics %>%
group_by(.metric) %>%
summarise(
mean = mean(.estimate, na.rm = TRUE),
sd = sd(.estimate, na.rm = TRUE)
)
#> # A tibble: 13 × 3
#> .metric mean sd
#> <chr> <dbl> <dbl>
#> 1 accuracy 0.709 2.47e- 2
#> 2 bal_accuracy 0.720 1.92e- 2
#> 3 detection_prevalence 0.25 9.25e-18
#> 4 f_meas 0.569 3.46e- 2
#> 5 j_index 0.439 3.85e- 2
#> 6 kap 0.508 4.10e- 2
#> 7 mcc 0.515 4.16e- 2
#> 8 npv 0.896 1.11e- 2
#> 9 ppv 0.633 3.87e- 2
#> 10 precision 0.633 3.87e- 2
#> 11 recall 0.560 3.09e- 2
#> 12 sens 0.560 3.09e- 2
#> 13 spec 0.879 9.67e- 3
相关用法
- R yardstick sens 灵敏度
- R yardstick smape 对称平均绝对百分比误差
- R yardstick spec 特异性
- R yardstick pr_auc 查准率曲线下面积
- R yardstick accuracy 准确性
- R yardstick gain_capture 增益捕获
- R yardstick pr_curve 精确率召回曲线
- R yardstick conf_mat 分类数据的混淆矩阵
- R yardstick mn_log_loss 多项数据的平均对数损失
- R yardstick rpd 性能与偏差之比
- R yardstick mae 平均绝对误差
- R yardstick detection_prevalence 检测率
- R yardstick bal_accuracy 平衡的精度
- R yardstick rpiq 绩效与四分位间的比率
- R yardstick roc_aunp 使用先验类别分布,每个类别相对于其他类别的 ROC 曲线下面积
- R yardstick roc_curve 接收者算子曲线
- R yardstick rsq R 平方
- R yardstick msd 平均符号偏差
- R yardstick mpe 平均百分比误差
- R yardstick iic 相关性理想指数
- R yardstick recall 记起
- R yardstick roc_aunu 使用均匀类别分布,每个类别相对于其他类别的 ROC 曲线下面积
- R yardstick npv 阴性预测值
- R yardstick rmse 均方根误差
- R yardstick rsq_trad R 平方 - 传统
注:本文由纯净天空筛选整理自Max Kuhn等大神的英文原创作品 Summary Statistics for Confusion Matrices。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。