R themis nearmiss 删除其他类附近的点

使用近似算法生成合成正实例。

用法

nearmiss(df, var, k = 5, under_ratio = 1)

参数

df: data.frame 或小标题。必须有 1 个因子变量和其余的数值变量。
var: 字符，包含因子变量的变量名称。
k: 一个整数。用于生成少数类新示例的最近邻居的数量。
under_ratio: minority-to-majority 频率比率的数值。默认值 (1) 意味着所有其他级别都会向下采样，以具有与最少出现的级别相同的频率。值为 2 意味着多数级别的行数(最多)(大约)是少数级别的行数的两倍。

值

data.frame 或 tibble，具体取决于 df 的类型。

细节

此函数中使用的所有列都必须是数字且没有缺失数据。

参考

Inderjeet Mani 和我张。处理不平衡数据分布的 knn 方法：涉及信息提取的案例研究。摘自不平衡数据集学习研讨会论文集，2003 年。

也可以看看

step_nearmiss() 用于此方法的步骤函数

其他直接实现：adasyn()、bsmote()、smotenc()、smote()、tomek()

例子

circle_numeric <- circle_example[, c("x", "y", "class")]

res <- nearmiss(circle_numeric, var = "class")

res <- nearmiss(circle_numeric, var = "class", k = 10)

res <- nearmiss(circle_numeric, var = "class", under_ratio = 1.5)

源代码：R/nearmiss_impl.R

相关用法

注：本文由纯净天空筛选整理自等大神的英文原创作品 Remove Points Near Other Classes。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。