R themis adasyn 自適應合成算法

使用 ADASYN 算法生成合成正例。

用法

adasyn(df, var, k = 5, over_ratio = 1)

參數

df: data.frame 或小標題。必須有 1 個因子變量和其餘的數值變量。
var: 字符，包含因子變量的變量名稱。
k: 一個整數。用於生成少數類新示例的最近鄰居的數量。
over_ratio: 多數頻率與少數頻率之比的數值。默認值 (1) 表示對所有其他級別進行采樣，使其具有與最常出現的級別相同的頻率。值為 0.5 意味著少數級別的行數(最多)(大約)是多數級別的一半。

值

data.frame 或 tibble，具體取決於 df 的類型。

細節

此函數中使用的所有列都必須是數字且沒有缺失數據。

參考

Chawla, N. V.、Bowyer, K. W.、Hall, L. O. 和 Kegelmeyer, W. P. (2002)。 Smote：合成少數過采樣技術。人工智能研究雜誌，16：321-357。

也可以看看

step_adasyn() 用於此方法的步驟函數

其他直接實現：bsmote()、nearmiss()、smotenc()、smote()、tomek()

例子

circle_numeric <- circle_example[, c("x", "y", "class")]

res <- adasyn(circle_numeric, var = "class")

res <- adasyn(circle_numeric, var = "class", k = 10)

res <- adasyn(circle_numeric, var = "class", over_ratio = 0.8)

源代碼：R/adasyn_impl.R

相關用法

注：本文由純淨天空篩選整理自等大神的英文原創作品 Adaptive Synthetic Algorithm。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。