当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R readr Tokenizers 分词器。


显式创建分词器对象。通常您不会调用这些函数,而是使用使用友好的包装器之一,例如 read_csv()

用法

tokenizer_delim(
  delim,
  quote = "\"",
  na = "NA",
  quoted_na = TRUE,
  comment = "",
  trim_ws = TRUE,
  escape_double = TRUE,
  escape_backslash = FALSE,
  skip_empty_rows = TRUE
)

tokenizer_csv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_tsv(
  na = "NA",
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_line(na = character(), skip_empty_rows = TRUE)

tokenizer_log(trim_ws)

tokenizer_fwf(
  begin,
  end,
  na = "NA",
  comment = "",
  trim_ws = TRUE,
  skip_empty_rows = TRUE
)

tokenizer_ws(na = "NA", comment = "", skip_empty_rows = TRUE)

参数

delim

用于分隔记录中的字段的单个字符。

quote

用于引用字符串的单个字符。

na

要解释为缺失值的字符串的字符向量。将此选项设置为 character() 以指示没有缺失值。

quoted_na

引号内的缺失值是否应被视为缺失值(默认)或字符串。从 readr 2.0.0 开始,此参数已被软弃用。

comment

用于标识评论的字符串。注释字符之后的任何文本都将被默默忽略。

trim_ws

在解析每个字段之前是否应该删除前导和尾随空格(ASCII 空格和制表符)?

escape_double

文件是否通过加倍引号来转义引号?即,如果此选项为 TRUE ,则值 """" 表示单引号 \"

escape_backslash

文件是否使用反斜杠来转义特殊字符?这比 escape_double 更通用,因为反斜杠可用于转义分隔符、引号字符,或添加特殊字符,例如 \\n

skip_empty_rows

空白行应该被完全忽略吗?即,如果此选项是TRUE,则根本不会表示空白行。如果是FALSE,则它们将由所有列中的NA 值表示。

begin, end

每个文件的开始和结束偏移量。这些是 C++ 偏移量,因此第一列是零列,范围是 [begin, end)(即 inclusive-exclusive)。

例子

tokenizer_csv()
#> $delim
#> [1] ","
#> 
#> $quote
#> [1] "\""
#> 
#> $na
#> [1] "NA"
#> 
#> $quoted_na
#> [1] TRUE
#> 
#> $comment
#> [1] ""
#> 
#> $trim_ws
#> [1] TRUE
#> 
#> $escape_double
#> [1] TRUE
#> 
#> $escape_backslash
#> [1] FALSE
#> 
#> $skip_empty_rows
#> [1] TRUE
#> 
#> attr(,"class")
#> [1] "tokenizer_delim"
源代码:R/tokenizer.R

相关用法


注:本文由纯净天空筛选整理自Hadley Wickham等大神的英文原创作品 Tokenizers.。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。