當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


R readr Tokenizers 分詞器。

顯式創建分詞器對象。通常您不會調用這些函數,而是使用使用友好的包裝器之一,例如 read_csv()

用法

tokenizer_delim(
  delim,
  quote = "\"",
  na = "NA",
  quoted_na = TRUE,
  comment = "",
  trim_ws = TRUE,
  escape_double = TRUE,
  escape_backslash = FALSE,
  skip_empty_rows = TRUE
)

tokenizer_csv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_tsv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_line(na = character(), skip_empty_rows = TRUE)

tokenizer_log(trim_ws)

tokenizer_fwf(
  begin,
  end,
  na = "NA",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_ws(na = "NA", comment = "", skip_empty_rows = TRUE)

參數

delim

用於分隔記錄中的字段的單個字符。

quote

用於引用字符串的單個字符。

na

要解釋為缺失值的字符串的字符向量。將此選項設置為 character() 以指示沒有缺失值。

quoted_na

引號內的缺失值是否應被視為缺失值(默認)或字符串。從 readr 2.0.0 開始,此參數已被軟棄用。

comment

用於標識評論的字符串。注釋字符之後的任何文本都將被默默忽略。

trim_ws

在解析每個字段之前是否應該刪除前導和尾隨空格(ASCII 空格和製表符)?

escape_double

文件是否通過加倍引號來轉義引號?即,如果此選項為 TRUE ,則值 """" 表示單引號 \"

escape_backslash

文件是否使用反斜杠來轉義特殊字符?這比 escape_double 更通用,因為反斜杠可用於轉義分隔符、引號字符,或添加特殊字符,例如 \\n

skip_empty_rows

空白行應該被完全忽略嗎?即,如果此選項是TRUE,則根本不會表示空白行。如果是FALSE,則它們將由所有列中的NA 值表示。

begin, end

每個文件的開始和結束偏移量。這些是 C++ 偏移量,因此第一列是零列,範圍是 [begin, end)(即 inclusive-exclusive)。

例子

tokenizer_csv()
#> $delim
#> [1] ","
#> 
#> $quote
#> [1] "\""
#> 
#> $na
#> [1] "NA"
#> 
#> $quoted_na
#> [1] TRUE
#> 
#> $comment
#> [1] ""
#> 
#> $trim_ws
#> [1] TRUE
#> 
#> $escape_double
#> [1] TRUE
#> 
#> $escape_backslash
#> [1] FALSE
#> 
#> $skip_empty_rows
#> [1] TRUE
#> 
#> attr(,"class")
#> [1] "tokenizer_delim"
源代碼:R/tokenizer.R

相關用法


注:本文由純淨天空篩選整理自Hadley Wickham等大神的英文原創作品 Tokenizers.。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。