charClass
位於 utils
包(package)。 說明
正在使用的 (C99) 寬字符分類函數的接口。
用法
charClass(x, class)
參數
x |
UTF-8 編碼的 length-1 字符向量或 Unicode 點的整數向量(或可強製轉換為整數的向量)。 |
class |
字符串,“詳細信息”部分中給出的字符串之一。 |
細節
字符類的分類取決於平台。這些類由 Windows 上的內部表以及 macOS 和 AIX 上的內部表(可選但默認)確定。
字符類解釋如下:
"alnum"
-
字母或數字。
"alpha"
-
按字母順序排列。
"blank"
-
空格或製表符。
"cntrl"
-
控製字符。
"digit"
-
數字
0-9
。 "graph"
-
圖形字符(除空格外的可打印字符)。
"lower"
-
小寫字母。
"print"
-
可打印字符。
"punct"
-
標點符號字符。某些平台將所有非字母數字圖形字符視為標點符號。
"space"
-
空白,包括製表符、表格和換行符以及回車符。有些操作係統包含不間斷空格,有些則不包含不間斷空格。
"upper"
-
大寫字母。
"xdigit"
-
十六進製字符,
0-9A-fa-f
之一。
字母字符包含所有小寫和大寫字符以及一些其他字符(例如,“標題大小寫”中的字符)。
字符是否可打印用於決定打印時是否對其進行轉義 - 請參閱 print.default
的幫助。
如果 x
是一個字符串,它應該是 ASCII 或聲明為 UTF-8 - 請參閱 Encoding
。
charClass
被添加到R4.1.0。檢查字符類的一種不太直接的方法(在早期版本中也有效)是使用類似的方法grepl("[[:print:]]", intToUtf8(x))
- 但是,正則表達式代碼可能不使用與打印相同的分類函數,並且在 macOS 上不使用相同的分類函數。
值
長度為 x
中字符或整數數量的邏輯向量。
注意
C99 標準將非 ASCII 數字排除在 "digit"
類之外:大多數平台將它們視為字母。
假設係統的寬字符分類函數以 Unicode 點編碼,但眾所周知,對於所有最新平台都是如此。
即使在一個平台上,分類也可能取決於區域設置。
例子
x <- c(48:70, 32, 0xa0) # Last is non-breaking space
cl <- c("alnum", "alpha", "blank", "digit", "graph", "punct", "upper", "xdigit")
X <- lapply(cl, function(y) charClass(x,y)); names(X) <- cl
X <- as.data.frame(X); row.names(X) <- sQuote(intToUtf8(x, multiple = TRUE))
X
charClass("ABC123", "alpha")
## Some accented capital Greek characters
(x <- "\u0386\u0388\u0389")
charClass(x, "upper")
## How many printable characters are there? (Around 280,000 in Unicode 13.)
## There are 2^21-1 possible Unicode points (most not yet assigned).
pr <- charClass(1:0x1fffff, "print")
table(pr)
也可以看看
字符類在 regular expression 中使用。
操作係統的 man
頁麵用於 iswctype
和 wctype
。
相關用法
- R changedFiles 檢測哪些文件已更改
- R chooseBioCmirror 選擇 Bioconductor 鏡像
- R chooseCRANmirror 選擇 CRAN 鏡像
- R choose.dir 在 MS Windows 上交互式選擇文件夾
- R choose.files 在 MS Windows 上交互式選擇文件列表
- R create.post 準備電子郵件和帖子的輔助函數
- R cite 引用參考書目條目
- R citation 在出版物中引用 R 和 R 包
- R citEntry 參考書目條目(舊接口)
- R count.fields 計算每行的字段數
- R combn 生成 n 個元素的所有組合,一次取 m 個
- R compareVersion 比較兩個包版本號
- R clipboard 在 MS Windows 中從剪貼板讀取/寫入
- R contrib.url 在類似 CRAN 的存儲庫中查找適當的路徑
- R close.socket 關閉套接字
- R capture.output 將輸出發送到字符串或文件
- R select.list 從列表中選擇項目
- R COMPILE 編譯用於 R 的文件
- R readRegistry 讀取 Windows 注冊表配置單元
- R browseVignettes 在 HTML 瀏覽器中列出暈影
- R hasName 檢查姓名
- R nsl 按主機名查找 IP 地址
- R edit 調用文本編輯器
- R hsearch-utils 幫助搜索實用程序
- R download.packages 從類似 CRAN 的存儲庫下載軟件包
注:本文由純淨天空篩選整理自R-devel大神的英文原創作品 Character Classification。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。