说明:
将数据源中的数据集作为 SparkDataFrame 返回
用法:
read.df(path = NULL, source = NULL, schema = NULL, na.strings = "NA", ...)
loadDF(path = NULL, source = NULL, schema = NULL, ...)
参数:
path
要加载的文件路径source
外部数据源名称schema
在 structType 或 DDL 格式的字符串中定义的数据模式。na.strings
源为 "csv" 时 NA 的默认字符串值...
额外的外部数据源特定的命名属性。
细节:
数据源由source
和一组选项(...)。如果source
不指定,将使用"spark.sql.sources.default"配置的默认数据源。
类似于 R read.csv,当source
是"csv",默认情况下,"NA" 的值将被解释为 NA。
返回:
SparkDataFrame
注意:
从 1.4.0 开始读取.df
loadDF 从 1.6.0 开始
例子:
sparkR.session()
df1 <- read.df("path/to/file.json", source = "json")
schema <- structType(structField("name", "string"),
structField("info", "map<string,double>"))
df2 <- read.df(mapTypeJsonPath, "json", schema, multiLine = TRUE)
df3 <- loadDF("data/test_table", "parquet", mergeSchema = "true")
stringSchema <- "name STRING, info MAP<STRING, DOUBLE>"
df4 <- read.df(mapTypeJsonPath, "json", stringSchema, multiLine = TRUE)
相关用法
- R SparkR read.stream用法及代码示例
- R SparkR read.jdbc用法及代码示例
- R SparkR read.text用法及代码示例
- R SparkR read.ml用法及代码示例
- R SparkR read.json用法及代码示例
- R SparkR refreshTable用法及代码示例
- R SparkR registerTempTable用法及代码示例
- R SparkR rename用法及代码示例
- R SparkR repartition用法及代码示例
- R SparkR recoverPartitions用法及代码示例
- R SparkR repartitionByRange用法及代码示例
- R SparkR refreshByPath用法及代码示例
- R SparkR randomSplit用法及代码示例
- R SparkR rbind用法及代码示例
- R SparkR rollup用法及代码示例
- R SparkR rangeBetween用法及代码示例
- R SparkR rowsBetween用法及代码示例
- R matrix转list用法及代码示例
- R SparkR freqItems用法及代码示例
- R SparkR intersectAll用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Load a SparkDataFrame。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。