当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR read.df用法及代码示例


说明:

将数据源中的数据集作为 SparkDataFrame 返回

用法:

read.df(path = NULL, source = NULL, schema = NULL, na.strings = "NA", ...)

loadDF(path = NULL, source = NULL, schema = NULL, ...)

参数:

  • path 要加载的文件路径
  • source 外部数据源名称
  • schema 在 structType 或 DDL 格式的字符串中定义的数据模式。
  • na.strings 源为 "csv" 时 NA 的默认字符串值
  • ... 额外的外部数据源特定的命名属性。

细节:

数据源由source和一组选项(...)。如果source不指定,将使用"spark.sql.sources.default"配置的默认数据源。
类似于 R read.csv,当source是"csv",默认情况下,"NA" 的值将被解释为 NA。

返回:

SparkDataFrame

注意:

从 1.4.0 开始读取.df

loadDF 从 1.6.0 开始

例子:

sparkR.session()
df1 <- read.df("path/to/file.json", source = "json")
schema <- structType(structField("name", "string"),
                     structField("info", "map<string,double>"))
df2 <- read.df(mapTypeJsonPath, "json", schema, multiLine = TRUE)
df3 <- loadDF("data/test_table", "parquet", mergeSchema = "true")
stringSchema <- "name STRING, info MAP<STRING, DOUBLE>"
df4 <- read.df(mapTypeJsonPath, "json", stringSchema, multiLine = TRUE)

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Load a SparkDataFrame。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。