当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R rvest html_encoding_guess 猜测字符编码错误


html_encoding_guess() 帮助您处理声明错误编码的网页。使用 html_encoding_guess() 生成可能的编码列表,然后使用 read_html()encoding 参数尝试每种编码。 html_encoding_guess() 替换已弃用的 guess_encoding()

用法

html_encoding_guess(x)

参数

x

字符向量。

例子

# A file with bad encoding included in the package
path <- system.file("html-ex", "bad-encoding.html", package = "rvest")
x <- read_html(path)
x %>% html_elements("p") %>% html_text()
#> [1] "\xc9migré cause célèbre déjà vu."

html_encoding_guess(x)
#>     encoding language confidence
#> 1 ISO-8859-1       fr       0.31
#> 2 ISO-8859-2       ro       0.22
#> 3   UTF-16BE                0.10
#> 4   UTF-16LE                0.10
#> 5    GB18030       zh       0.10
#> 6       Big5       zh       0.10
#> 7 ISO-8859-9       tr       0.06
#> 8 IBM424_rtl       he       0.01
#> 9 IBM424_ltr       he       0.01
# Two valid encodings, only one of which is correct
read_html(path, encoding = "ISO-8859-1") %>% html_elements("p") %>% html_text()
#> [1] "Émigré cause célèbre déjà vu."
read_html(path, encoding = "ISO-8859-2") %>% html_elements("p") %>% html_text()
#> [1] "Émigré cause célčbre déjŕ vu."
源代码:R/encoding.R

相关用法


注:本文由纯净天空筛选整理自Hadley Wickham等大神的英文原创作品 Guess faulty character encoding。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。