R readr Tokenizers 分詞器。

顯式創建分詞器對象。通常您不會調用這些函數，而是使用使用友好的包裝器之一，例如 read_csv() 。

用法

tokenizer_delim(
  delim,
  quote = "\"",
  na = "NA",
  quoted_na = TRUE,
  comment = "",
  trim_ws = TRUE,
  escape_double = TRUE,
  escape_backslash = FALSE,
  skip_empty_rows = TRUE
)

tokenizer_csv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_tsv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_line(na = character(), skip_empty_rows = TRUE)

tokenizer_log(trim_ws)

tokenizer_fwf(
  begin,
  end,
  na = "NA",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_ws(na = "NA", comment = "", skip_empty_rows = TRUE)

參數

delim: 用於分隔記錄中的字段的單個字符。
quote: 用於引用字符串的單個字符。
na: 要解釋為缺失值的字符串的字符向量。將此選項設置為 character() 以指示沒有缺失值。
quoted_na: 引號內的缺失值是否應被視為缺失值(默認)或字符串。從 readr 2.0.0 開始，此參數已被軟棄用。
comment: 用於標識評論的字符串。注釋字符之後的任何文本都將被默默忽略。
trim_ws: 在解析每個字段之前是否應該刪除前導和尾隨空格(ASCII 空格和製表符)？
escape_double: 文件是否通過加倍引號來轉義引號？即，如果此選項為 TRUE ，則值 """" 表示單引號 \" 。
escape_backslash: 文件是否使用反斜杠來轉義特殊字符？這比 escape_double 更通用，因為反斜杠可用於轉義分隔符、引號字符，或添加特殊字符，例如 \\n 。
skip_empty_rows: 空白行應該被完全忽略嗎？即，如果此選項是TRUE，則根本不會表示空白行。如果是FALSE，則它們將由所有列中的NA 值表示。
begin, end: 每個文件的開始和結束偏移量。這些是 C++ 偏移量，因此第一列是零列，範圍是 [begin, end)(即 inclusive-exclusive)。

例子

tokenizer_csv()
#> $delim
#> [1] ","
#> 
#> $quote
#> [1] "\""
#> 
#> $na
#> [1] "NA"
#> 
#> $quoted_na
#> [1] TRUE
#> 
#> $comment
#> [1] ""
#> 
#> $trim_ws
#> [1] TRUE
#> 
#> $escape_double
#> [1] TRUE
#> 
#> $escape_backslash
#> [1] FALSE
#> 
#> $skip_empty_rows
#> [1] TRUE
#> 
#> attr(,"class")
#> [1] "tokenizer_delim"

源代碼：R/tokenizer.R

相關用法

注：本文由純淨天空篩選整理自Hadley Wickham等大神的英文原創作品 Tokenizers.。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。