R themis nearmiss 刪除其他類附近的點

使用近似算法生成合成正實例。

用法

nearmiss(df, var, k = 5, under_ratio = 1)

參數

df: data.frame 或小標題。必須有 1 個因子變量和其餘的數值變量。
var: 字符，包含因子變量的變量名稱。
k: 一個整數。用於生成少數類新示例的最近鄰居的數量。
under_ratio: minority-to-majority 頻率比率的數值。默認值 (1) 意味著所有其他級別都會向下采樣，以具有與最少出現的級別相同的頻率。值為 2 意味著多數級別的行數(最多)(大約)是少數級別的行數的兩倍。

值

data.frame 或 tibble，具體取決於 df 的類型。

細節

此函數中使用的所有列都必須是數字且沒有缺失數據。

參考

Inderjeet Mani 和我張。處理不平衡數據分布的 knn 方法：涉及信息提取的案例研究。摘自不平衡數據集學習研討會論文集，2003 年。

也可以看看

step_nearmiss() 用於此方法的步驟函數

其他直接實現：adasyn()、bsmote()、smotenc()、smote()、tomek()

例子

circle_numeric <- circle_example[, c("x", "y", "class")]

res <- nearmiss(circle_numeric, var = "class")

res <- nearmiss(circle_numeric, var = "class", k = 10)

res <- nearmiss(circle_numeric, var = "class", under_ratio = 1.5)

源代碼：R/nearmiss_impl.R

相關用法

注：本文由純淨天空篩選整理自等大神的英文原創作品 Remove Points Near Other Classes。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。