显式创建分词器对象。通常您不会调用这些函数,而是使用使用友好的包装器之一,例如 read_csv()
。
用法
tokenizer_delim(
delim,
quote = "\"",
na = "NA",
quoted_na = TRUE,
comment = "",
trim_ws = TRUE,
escape_double = TRUE,
escape_backslash = FALSE,
skip_empty_rows = TRUE
)
tokenizer_csv(
na = "NA",
quoted_na = TRUE,
quote = "\"",
comment = "",
trim_ws = TRUE,
skip_empty_rows = TRUE
)
tokenizer_tsv(
na = "NA",
quoted_na = TRUE,
quote = "\"",
comment = "",
trim_ws = TRUE,
skip_empty_rows = TRUE
)
tokenizer_line(na = character(), skip_empty_rows = TRUE)
tokenizer_log(trim_ws)
tokenizer_fwf(
begin,
end,
na = "NA",
comment = "",
trim_ws = TRUE,
skip_empty_rows = TRUE
)
tokenizer_ws(na = "NA", comment = "", skip_empty_rows = TRUE)
参数
- delim
-
用于分隔记录中的字段的单个字符。
- quote
-
用于引用字符串的单个字符。
- na
-
要解释为缺失值的字符串的字符向量。将此选项设置为
character()
以指示没有缺失值。 - quoted_na
-
引号内的缺失值是否应被视为缺失值(默认)或字符串。从 readr 2.0.0 开始,此参数已被软弃用。
- comment
-
用于标识评论的字符串。注释字符之后的任何文本都将被默默忽略。
- trim_ws
-
在解析每个字段之前是否应该删除前导和尾随空格(ASCII 空格和制表符)?
- escape_double
-
文件是否通过加倍引号来转义引号?即,如果此选项为
TRUE
,则值""""
表示单引号\"
。 - escape_backslash
-
文件是否使用反斜杠来转义特殊字符?这比
escape_double
更通用,因为反斜杠可用于转义分隔符、引号字符,或添加特殊字符,例如\\n
。 - skip_empty_rows
-
空白行应该被完全忽略吗?即,如果此选项是
TRUE
,则根本不会表示空白行。如果是FALSE
,则它们将由所有列中的NA
值表示。 - begin, end
-
每个文件的开始和结束偏移量。这些是 C++ 偏移量,因此第一列是零列,范围是 [begin, end)(即 inclusive-exclusive)。
例子
tokenizer_csv()
#> $delim
#> [1] ","
#>
#> $quote
#> [1] "\""
#>
#> $na
#> [1] "NA"
#>
#> $quoted_na
#> [1] TRUE
#>
#> $comment
#> [1] ""
#>
#> $trim_ws
#> [1] TRUE
#>
#> $escape_double
#> [1] TRUE
#>
#> $escape_backslash
#> [1] FALSE
#>
#> $skip_empty_rows
#> [1] TRUE
#>
#> attr(,"class")
#> [1] "tokenizer_delim"
相关用法
- R readr datasource 创建源对象。
- R readr melt_delim 返回分隔文件中每个标记的熔化数据(包括 csv 和 tsv)
- R readr read_rds 读/写 RDS 文件。
- R readr read_lines 从文件中读取/写入行
- R readr parse_number 灵活地解析数字
- R readr read_fwf 将固定宽度文件读入 tibble
- R readr read_builtin 从包中读取内置对象
- R readr melt_table 返回空格分隔文件中每个标记的熔化数据
- R readr date_names 创建或检索日期名称
- R readr type_convert 重新转换现有 DataFrame 中的字符列
- R readr locale 创建语言环境
- R readr write_delim 将数据帧写入分隔文件
- R readr parse_vector 解析字符向量。
- R readr with_edition 暂时更改活动阅读器版本
- R readr read_delim 将分隔文件(包括 CSV 和 TSV)读入 tibble
- R readr format_delim 将 DataFrame 转换为分隔字符串
- R readr edition_get 检索当前活动版本
- R readr readr_example 获取 readr 示例的路径
- R readr melt_fwf 返回固定宽度文件中每个标记的熔化数据
- R readr count_fields 计算文件每一行中的字段数
- R readr read_table 将空格分隔的列读入 tibble
- R readr problems 检索解析问题
- R readr parse_guess 使用“最佳”类型进行解析
- R readr parse_datetime 解析日期/时间
- R readr read_file 读/写完整文件
注:本文由纯净天空筛选整理自Hadley Wickham等大神的英文原创作品 Tokenizers.。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。