R SparkR read.stream用法及代码示例

说明：

将数据源中的数据集作为 SparkDataFrame 返回

用法：

read.stream(source = NULL, schema = NULL, ...)

参数：

source 外部数据源名称
schema structType 中定义的数据模式或 DDL 格式的字符串，这是基于文件的流数据源所必需的
... 其他外部数据源特定的命名选项，例如 path 用于基于文件的流数据源。 timeZone 表示用于解析 JSON/CSV 数据源或分区值中的时间戳的时区；如果未设置，则使用默认值会话本地时区。

细节：

数据源由source 和一组选项(...)指定。如果不指定source，则使用"spark.sql.sources.default"配置的默认数据源。

SparkDataFrame

注意：

从 2.2.0 开始的 read.stream

实验

例子：

sparkR.session()
df <- read.stream("socket", host = "localhost", port = 9999)
q <- write.stream(df, "text", path = "/home/user/out", checkpointLocation = "/home/user/cp")

df <- read.stream("json", path = jsonDir, schema = schema, maxFilesPerTrigger = 1)
stringSchema <- "name STRING, info MAP<STRING, DOUBLE>"
df1 <- read.stream("json", path = jsonDir, schema = stringSchema, maxFilesPerTrigger = 1)

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Load a streaming SparkDataFrame。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

说明：

用法：

参数：

细节：

返回：

注意：

例子：