agrep
位于 base
包(package)。 说明
使用广义编辑距离(转换一个字符串所需的插入、删除和替换的最小可能加权数量)在字符串 x
(第二个参数)的每个元素中搜索与 pattern
(第一个参数)的近似匹配进入另一个)。
用法
agrep(pattern, x, max.distance = 0.1, costs = NULL,
ignore.case = FALSE, value = FALSE, fixed = TRUE,
useBytes = FALSE)
agrepl(pattern, x, max.distance = 0.1, costs = NULL,
ignore.case = FALSE, fixed = TRUE, useBytes = FALSE)
参数
pattern |
要匹配的非空字符串。对于 |
x |
寻找匹配的字符向量。如果可能,由 |
max.distance |
一场比赛允许的最大距离。表示为整数,或表示为模式长度乘以最大转换成本的分数(将被不小于相应分数的最小整数替换),或包含可能组件的列表
如果未给出 |
costs |
名称部分匹配 ‘ 的数字向量或列表插入', '删除' 和 '替代品’ 给出计算广义编辑距离的相应成本,或者 |
ignore.case |
如果 |
value |
如果 |
fixed |
合乎逻辑的。如果 |
useBytes |
合乎逻辑的。在多字节语言环境中,比较应该是逐个字符(默认)还是逐个字节。 |
细节
Levenshtein 编辑距离用作近似度的度量:它是将一个字符串转换为另一个字符串所需的插入、删除和替换的总数(可能是 cost-weighted)。
它使用 Ville Laurikari (https://github.com/laurikari/tre) 的 tre
代码,该代码支持 MBCS 字符匹配。
useBytes
的主要作用是避免有关多字节语言环境中的无效输入和虚假匹配的错误/警告。它禁止带有标记编码的输入的转换,并且如果发现任何标记为 "bytes"
的输入(请参阅 Encoding
),则会强制执行。
值
agrep
返回一个向量,给出产生匹配的元素的索引,或者,如果 value
是 TRUE
,则返回匹配的元素(强制后,保留名称但不保留其他属性)。
agrepl
返回一个逻辑向量。
注意
由于不小心阅读说明的人甚至提交了错误报告,请注意,这匹配 x
的每个元素的子字符串(就像 grep
一样)而不是整个元素。另请参阅utils
包中的adist
,它可以选择返回匹配子字符串的偏移量。
例子
agrep("lasy", "1 lazy 2")
agrep("lasy", c(" 1 lazy 2", "1 lasy 2"), max.distance = list(sub = 0))
agrep("laysy", c("1 lazy", "1", "1 LAZY"), max.distance = 2)
agrep("laysy", c("1 lazy", "1", "1 LAZY"), max.distance = 2, value = TRUE)
agrep("laysy", c("1 lazy", "1", "1 LAZY"), max.distance = 2, ignore.case = TRUE)
作者
Original version in R < 2.10.0 by David Meyer. Current version by Brian Ripley and Kurt Hornik.
也可以看看
相关用法
- R apply 在数组边距上应用函数
- R as.Date 日期与字符之间的转换函数
- R append 向量合并
- R assignOps 赋值运算符
- R as.POSIX* 日期时间转换函数
- R asplit 按边距分割数组/矩阵
- R attributes 对象属性列表
- R abbreviate 缩写字符串
- R all.equal 测试两个对象是否(几乎)相等
- R aperm 数组转置
- R args 函数的参数列表
- R attr 对象属性
- R array2DF 将数组转换为 DataFrame
- R autoload 按需加载包
- R attach 将一组 R 对象附加到搜索路径
- R all.names 查找表达式中的所有名称
- R as.environment 强制环境对象
- R as.function 将对象转换为函数
- R assign 为名称分配值
- R any 有些值是真的吗?
- R array 多路阵列
- R as.data.frame 强制数据帧
- R all 所有的值都是真的吗?
- R file.path 构造文件路径
- R grep 模式匹配和替换
注:本文由纯净天空筛选整理自R-devel大神的英文原创作品 Approximate String Matching (Fuzzy Matching)。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。