當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R charsets 字符集之間的轉換表


R語言 charsets 位於 tools 包(package)。

說明

charset_to_Unicode 是一個 Unicode 代碼點矩陣,其中包含常見 8 位編碼的列。

Adobe_glyphs 是一個 DataFrame ,它為 Unicode 代碼點提供 Adobe 字形名稱。它有兩個字符列:"adobe""unicode"(4 位十六進製表示形式)。

用法

charset_to_Unicode

Adobe_glyphs

細節

charset_to_Unicode 是類 c("noquote", "hexmode") 的整數矩陣,因此以十六進製打印。這些映射是 libiconv 使用的映射:源之間的引號和減號/連字符映射方式存在差異(並且 postscript 編碼文件使用不同的映射)。

Adobe_glyphs包括與單個 Unicode 字符相對應的所有 Adobe 字形名稱。它按 Unicode 代碼點排序,並在字形上的一個點內按字母順序排序(Unicode 代碼點可以有多個名稱)。數據位於文件‘base Rhome/分享/編碼/Adobe_glyphlist’。

例子

## find Adobe names for ISOLatin2 chars.
latin2 <- charset_to_Unicode[, "ISOLatin2"]
aUnicode <- as.hexmode(paste0("0x", Adobe_glyphs$unicode))
keep <- aUnicode %in% latin2
aUnicode <- aUnicode[keep]
aAdobe <- Adobe_glyphs[keep, 1]
## first match
aLatin2 <- aAdobe[match(latin2, aUnicode)]
## all matches
bLatin2 <- lapply(1:256, function(x) aAdobe[aUnicode == latin2[x]])
format(bLatin2, justify = "none")

相關用法


注:本文由純淨天空篩選整理自R-devel大神的英文原創作品 Conversion Tables between Character Sets。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。