当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataStreamWriter.start用法及代码示例


本文简要介绍 pyspark.sql.streaming.DataStreamWriter.start 的用法。

用法:

DataStreamWriter.start(path=None, format=None, outputMode=None, partitionBy=None, queryName=None, **options)

DataFrame 的内容流式传输到数据源。

数据源由 format 和一组 options 指定。如果不指定format,则使用spark.sql.sources.default配置的默认数据源。

2.0.0 版中的新函数。

参数

pathstr,可选

Hadoop 支持的文件系统中的路径

formatstr,可选

用于保存的格式

outputModestr,可选

指定流式 DataFrame/Dataset 的数据如何写入流式接收器。

  • append : 只有流数据帧/数据集中的新行会被写入接收器

  • complete : 每次这些更新时,流数据帧/数据集中的所有行都将被写入接收器

  • update :每次有一些更新时,只有在流数据帧/数据集中更新的行才会被写入接收器。如果查询不包含聚合,则相当于append模式。

partitionBystr 或列表,可选

分区列的名称

queryNamestr,可选

查询的唯一名称

**optionsdict

所有其他字符串选项。您可能希望为大多数流提供checkpointLocation,但memory 流不需要它。

注意

这个 API 正在发展。

例子

>>> sq = sdf.writeStream.format('memory').queryName('this_query').start()
>>> sq.isActive
True
>>> sq.name
'this_query'
>>> sq.stop()
>>> sq.isActive
False
>>> sq = sdf.writeStream.trigger(processingTime='5 seconds').start(
...     queryName='that_query', outputMode="append", format='memory')
>>> sq.name
'that_query'
>>> sq.isActive
True
>>> sq.stop()

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.streaming.DataStreamWriter.start。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。