顯式創建分詞器對象。通常您不會調用這些函數,而是使用使用友好的包裝器之一,例如 read_csv()
。
用法
tokenizer_delim(
delim,
quote = "\"",
na = "NA",
quoted_na = TRUE,
comment = "",
trim_ws = TRUE,
escape_double = TRUE,
escape_backslash = FALSE,
skip_empty_rows = TRUE
)
tokenizer_csv(
na = "NA",
quoted_na = TRUE,
quote = "\"",
comment = "",
trim_ws = TRUE,
skip_empty_rows = TRUE
)
tokenizer_tsv(
na = "NA",
quoted_na = TRUE,
quote = "\"",
comment = "",
trim_ws = TRUE,
skip_empty_rows = TRUE
)
tokenizer_line(na = character(), skip_empty_rows = TRUE)
tokenizer_log(trim_ws)
tokenizer_fwf(
begin,
end,
na = "NA",
comment = "",
trim_ws = TRUE,
skip_empty_rows = TRUE
)
tokenizer_ws(na = "NA", comment = "", skip_empty_rows = TRUE)
參數
- delim
-
用於分隔記錄中的字段的單個字符。
- quote
-
用於引用字符串的單個字符。
- na
-
要解釋為缺失值的字符串的字符向量。將此選項設置為
character()
以指示沒有缺失值。 - quoted_na
-
引號內的缺失值是否應被視為缺失值(默認)或字符串。從 readr 2.0.0 開始,此參數已被軟棄用。
- comment
-
用於標識評論的字符串。注釋字符之後的任何文本都將被默默忽略。
- trim_ws
-
在解析每個字段之前是否應該刪除前導和尾隨空格(ASCII 空格和製表符)?
- escape_double
-
文件是否通過加倍引號來轉義引號?即,如果此選項為
TRUE
,則值""""
表示單引號\"
。 - escape_backslash
-
文件是否使用反斜杠來轉義特殊字符?這比
escape_double
更通用,因為反斜杠可用於轉義分隔符、引號字符,或添加特殊字符,例如\\n
。 - skip_empty_rows
-
空白行應該被完全忽略嗎?即,如果此選項是
TRUE
,則根本不會表示空白行。如果是FALSE
,則它們將由所有列中的NA
值表示。 - begin, end
-
每個文件的開始和結束偏移量。這些是 C++ 偏移量,因此第一列是零列,範圍是 [begin, end)(即 inclusive-exclusive)。
例子
tokenizer_csv()
#> $delim
#> [1] ","
#>
#> $quote
#> [1] "\""
#>
#> $na
#> [1] "NA"
#>
#> $quoted_na
#> [1] TRUE
#>
#> $comment
#> [1] ""
#>
#> $trim_ws
#> [1] TRUE
#>
#> $escape_double
#> [1] TRUE
#>
#> $escape_backslash
#> [1] FALSE
#>
#> $skip_empty_rows
#> [1] TRUE
#>
#> attr(,"class")
#> [1] "tokenizer_delim"
相關用法
- R readr datasource 創建源對象。
- R readr melt_delim 返回分隔文件中每個標記的熔化數據(包括 csv 和 tsv)
- R readr read_rds 讀/寫 RDS 文件。
- R readr read_lines 從文件中讀取/寫入行
- R readr parse_number 靈活地解析數字
- R readr read_fwf 將固定寬度文件讀入 tibble
- R readr read_builtin 從包中讀取內置對象
- R readr melt_table 返回空格分隔文件中每個標記的熔化數據
- R readr date_names 創建或檢索日期名稱
- R readr type_convert 重新轉換現有 DataFrame 中的字符列
- R readr locale 創建語言環境
- R readr write_delim 將數據幀寫入分隔文件
- R readr parse_vector 解析字符向量。
- R readr with_edition 暫時更改活動閱讀器版本
- R readr read_delim 將分隔文件(包括 CSV 和 TSV)讀入 tibble
- R readr format_delim 將 DataFrame 轉換為分隔字符串
- R readr edition_get 檢索當前活動版本
- R readr readr_example 獲取 readr 示例的路徑
- R readr melt_fwf 返回固定寬度文件中每個標記的熔化數據
- R readr count_fields 計算文件每一行中的字段數
- R readr read_table 將空格分隔的列讀入 tibble
- R readr problems 檢索解析問題
- R readr parse_guess 使用“最佳”類型進行解析
- R readr parse_datetime 解析日期/時間
- R readr read_file 讀/寫完整文件
注:本文由純淨天空篩選整理自Hadley Wickham等大神的英文原創作品 Tokenizers.。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。