R readr Tokenizers 分词器。

显式创建分词器对象。通常您不会调用这些函数，而是使用使用友好的包装器之一，例如 read_csv() 。

用法

tokenizer_delim(
  delim,
  quote = "\"",
  na = "NA",
  quoted_na = TRUE,
  comment = "",
  trim_ws = TRUE,
  escape_double = TRUE,
  escape_backslash = FALSE,
  skip_empty_rows = TRUE
)

tokenizer_csv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_tsv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_line(na = character(), skip_empty_rows = TRUE)

tokenizer_log(trim_ws)

tokenizer_fwf(
  begin,
  end,
  na = "NA",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_ws(na = "NA", comment = "", skip_empty_rows = TRUE)

参数

delim: 用于分隔记录中的字段的单个字符。
quote: 用于引用字符串的单个字符。
na: 要解释为缺失值的字符串的字符向量。将此选项设置为 character() 以指示没有缺失值。
quoted_na: 引号内的缺失值是否应被视为缺失值(默认)或字符串。从 readr 2.0.0 开始，此参数已被软弃用。
comment: 用于标识评论的字符串。注释字符之后的任何文本都将被默默忽略。
trim_ws: 在解析每个字段之前是否应该删除前导和尾随空格(ASCII 空格和制表符)？
escape_double: 文件是否通过加倍引号来转义引号？即，如果此选项为 TRUE ，则值 """" 表示单引号 \" 。
escape_backslash: 文件是否使用反斜杠来转义特殊字符？这比 escape_double 更通用，因为反斜杠可用于转义分隔符、引号字符，或添加特殊字符，例如 \\n 。
skip_empty_rows: 空白行应该被完全忽略吗？即，如果此选项是TRUE，则根本不会表示空白行。如果是FALSE，则它们将由所有列中的NA 值表示。
begin, end: 每个文件的开始和结束偏移量。这些是 C++ 偏移量，因此第一列是零列，范围是 [begin, end)(即 inclusive-exclusive)。

例子

tokenizer_csv()
#> $delim
#> [1] ","
#> 
#> $quote
#> [1] "\""
#> 
#> $na
#> [1] "NA"
#> 
#> $quoted_na
#> [1] TRUE
#> 
#> $comment
#> [1] ""
#> 
#> $trim_ws
#> [1] TRUE
#> 
#> $escape_double
#> [1] TRUE
#> 
#> $escape_backslash
#> [1] FALSE
#> 
#> $skip_empty_rows
#> [1] TRUE
#> 
#> attr(,"class")
#> [1] "tokenizer_delim"

源代码：R/tokenizer.R

相关用法

注：本文由纯净天空筛选整理自Hadley Wickham等大神的英文原创作品 Tokenizers.。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。