當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R SparkR read.df用法及代碼示例


說明:

將數據源中的數據集作為 SparkDataFrame 返回

用法:

read.df(path = NULL, source = NULL, schema = NULL, na.strings = "NA", ...)

loadDF(path = NULL, source = NULL, schema = NULL, ...)

參數:

  • path 要加載的文件路徑
  • source 外部數據源名稱
  • schema 在 structType 或 DDL 格式的字符串中定義的數據模式。
  • na.strings 源為 "csv" 時 NA 的默認字符串值
  • ... 額外的外部數據源特定的命名屬性。

細節:

數據源由source和一組選項(...)。如果source不指定,將使用"spark.sql.sources.default"配置的默認數據源。
類似於 R read.csv,當source是"csv",默認情況下,"NA" 的值將被解釋為 NA。

返回:

SparkDataFrame

注意:

從 1.4.0 開始讀取.df

loadDF 從 1.6.0 開始

例子:

sparkR.session()
df1 <- read.df("path/to/file.json", source = "json")
schema <- structType(structField("name", "string"),
                     structField("info", "map<string,double>"))
df2 <- read.df(mapTypeJsonPath, "json", schema, multiLine = TRUE)
df3 <- loadDF("data/test_table", "parquet", mergeSchema = "true")
stringSchema <- "name STRING, info MAP<STRING, DOUBLE>"
df4 <- read.df(mapTypeJsonPath, "json", stringSchema, multiLine = TRUE)

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 Load a SparkDataFrame。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。