Python pyspark DataStreamWriter.start用法及代码示例

本文简要介绍 pyspark.sql.streaming.DataStreamWriter.start 的用法。

用法:
DataStreamWriter.start(path=None, format=None, outputMode=None, partitionBy=None, queryName=None, **options)

将DataFrame 的内容流式传输到数据源。

数据源由 format 和一组 options 指定。如果不指定format，则使用spark.sql.sources.default配置的默认数据源。

2.0.0 版中的新函数。

参数：

path：str，可选

Hadoop 支持的文件系统中的路径

format：str，可选

用于保存的格式

outputMode：str，可选

指定流式 DataFrame/Dataset 的数据如何写入流式接收器。

append : 只有流数据帧/数据集中的新行会被写入接收器
complete : 每次这些更新时，流数据帧/数据集中的所有行都将被写入接收器
update ：每次有一些更新时，只有在流数据帧/数据集中更新的行才会被写入接收器。如果查询不包含聚合，则相当于append模式。

partitionBy：str 或列表，可选

分区列的名称

queryName：str，可选

查询的唯一名称

**options：dict

所有其他字符串选项。您可能希望为大多数流提供checkpointLocation，但memory 流不需要它。

注意：

这个 API 正在发展。

例子：

>>> sq = sdf.writeStream.format('memory').queryName('this_query').start()
>>> sq.isActive
True
>>> sq.name
'this_query'
>>> sq.stop()
>>> sq.isActive
False
>>> sq = sdf.writeStream.trigger(processingTime='5 seconds').start(
...     queryName='that_query', outputMode="append", format='memory')
>>> sq.name
'that_query'
>>> sq.isActive
True
>>> sq.stop()

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.streaming.DataStreamWriter.start。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。