Python pyspark DataStreamWriter.start用法及代碼示例

本文簡要介紹 pyspark.sql.streaming.DataStreamWriter.start 的用法。

用法:
DataStreamWriter.start(path=None, format=None, outputMode=None, partitionBy=None, queryName=None, **options)

將DataFrame 的內容流式傳輸到數據源。

數據源由 format 和一組 options 指定。如果不指定format，則使用spark.sql.sources.default配置的默認數據源。

2.0.0 版中的新函數。

參數：

path：str，可選

Hadoop 支持的文件係統中的路徑

format：str，可選

用於保存的格式

outputMode：str，可選

指定流式 DataFrame/Dataset 的數據如何寫入流式接收器。

append : 隻有流數據幀/數據集中的新行會被寫入接收器
complete : 每次這些更新時，流數據幀/數據集中的所有行都將被寫入接收器
update ：每次有一些更新時，隻有在流數據幀/數據集中更新的行才會被寫入接收器。如果查詢不包含聚合，則相當於append模式。

partitionBy：str 或列表，可選

分區列的名稱

queryName：str，可選

查詢的唯一名稱

**options：dict

所有其他字符串選項。您可能希望為大多數流提供checkpointLocation，但memory 流不需要它。

注意：

這個 API 正在發展。

例子：

>>> sq = sdf.writeStream.format('memory').queryName('this_query').start()
>>> sq.isActive
True
>>> sq.name
'this_query'
>>> sq.stop()
>>> sq.isActive
False
>>> sq = sdf.writeStream.trigger(processingTime='5 seconds').start(
...     queryName='that_query', outputMode="append", format='memory')
>>> sq.name
'that_query'
>>> sq.isActive
True
>>> sq.stop()

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.streaming.DataStreamWriter.start。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。