R readr read_table 將空格分隔的列讀入 tibble

read_table() 旨在讀取每列由一列(或多列)空格分隔的文本數據類型。

read_table() 與 read.table() 類似，它允許列之間有任意數量的空白字符，並且行可以具有不同的長度。

spec_table() 返回列規範而不是 DataFrame 。

用法

read_table(
  file,
  col_names = TRUE,
  col_types = NULL,
  locale = default_locale(),
  na = "NA",
  skip = 0,
  n_max = Inf,
  guess_max = min(n_max, 1000),
  progress = show_progress(),
  comment = "",
  show_col_types = should_show_types(),
  skip_empty_rows = TRUE
)

參數

file

文件路徑、連接或文字數據(單個字符串或原始向量)。

以 .gz 、 .bz2 、 .xz 或 .zip 結尾的文件將自動解壓縮。將自動下載以 http:// 、 https:// 、 ftp:// 或 ftps:// 開頭的文件。遠程gz文件也可以自動下載並解壓。

文字數據對於示例和測試最有用。要被識別為文字數據，輸入必須用 I() 包裝，是包含至少一個換行符的字符串，或者是至少包含一個帶有換行符的字符串的向量。

使用值 clipboard() 將從係統剪貼板讀取。

col_names

TRUE 、 FALSE 或列名稱的字符向量。

如果 TRUE ，輸入的第一行將用作列名稱，並且不會包含在 DataFrame 中。如果 FALSE ，將自動生成列名稱：X1、X2、X3 等。

如果 col_names 是字符向量，則這些值將用作列的名稱，並且輸入的第一行將被讀入輸出數據幀的第一行。

缺少 ( NA ) 列名將生成警告，並用虛擬名稱 ...1 、 ...2 等進行填充。重複的列名將生成警告並使其唯一，請參閱 name_repair 來控製其方式完畢。

col_types

NULL、cols() 規範或字符串之一。有關更多詳細信息，請參閱vignette("readr")。

如果是 NULL ，則所有列類型都將從輸入的 guess_max 行推斷出來，散布在整個文件中。這很方便(而且快速)，但不夠穩健。如果猜測的類型錯誤，您需要增加 guess_max 或自己提供正確的類型。

由 list() 或 cols() 創建的列規範必須為每一列包含一個列規範。如果您隻想讀取列的子集，請使用 cols_only() 。

或者，您可以使用緊湊的字符串表示形式，其中每個字符代表一列：

c = 字符
我 = 整數
n = 數字
d = 雙
l = 邏輯
f = 因子
D = 日期
T = 日期時間
t = 時間
？ = 猜猜
_ 或 - = 跳過

默認情況下，讀取沒有列規範的文件將打印一條消息，顯示 readr 猜測的內容。要刪除此消息，請設置 show_col_types = FALSE 或設置 `options(readr.show_col_types = FALSE)。

locale

區域設置控製默認值因地而異。默認區域設置為 US-centric(如 R)，但您可以使用 locale() 創建自己的區域設置來控製默認時區、編碼、小數標記、大標記和日/月名稱等內容。

na

要解釋為缺失值的字符串的字符向量。將此選項設置為 character() 以指示沒有缺失值。

skip

讀取數據之前要跳過的行數。

n_max

讀取的最大行數。

guess_max

用於猜測列類型的最大行數。永遠不會使用超過讀取的行數。有關更多詳細信息，請參閱vignette("column-types", package = "readr")。

progress

顯示進度條？默認情況下，它隻會在交互式會話中顯示，而不會在編織文檔時顯示。可以通過將選項 readr.show_progress 設置為 FALSE 來禁用自動進度條。

comment

用於標識評論的字符串。注釋字符之後的任何文本都將被默默忽略。

show_col_types

如果是 FALSE ，則不顯示猜測的列類型。如果 TRUE 始終顯示列類型，即使提供了列類型。如果 NULL(默認)僅在 col_types 參數未顯式提供列類型時顯示列類型。

skip_empty_rows

空白行應該被完全忽略嗎？即，如果此選項是TRUE，則根本不會表示空白行。如果是FALSE，則它們將由所有列中的NA 值表示。

也可以看看

read_fwf() 讀取固定寬度文件，其中每列不以空格分隔。 read_fwf() 對於讀取非標準格式的表格數據也很有用。

例子

ws <- readr_example("whitespace-sample.txt")
writeLines(read_lines(ws))
#> first last state phone
#> John Smith WA 418-Y11-4111
#> Mary Hartford CA 319-Z19-4341
#> Evan Nolan IL 219-532-c301
read_table(ws)
#> 
#> ── Column specification ──────────────────────────────────────────────────
#> cols(
#>   first = col_character(),
#>   last = col_character(),
#>   state = col_character(),
#>   phone = col_character()
#> )
#> # A tibble: 3 × 4
#>   first last     state phone       
#>   <chr> <chr>    <chr> <chr>       
#> 1 John  Smith    WA    418-Y11-4111
#> 2 Mary  Hartford CA    319-Z19-4341
#> 3 Evan  Nolan    IL    219-532-c301

源代碼：R/read_table.R

相關用法

注：本文由純淨天空篩選整理自Hadley Wickham等大神的英文原創作品 Read whitespace-separated columns into a tibble。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。