當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataStreamWriter.start用法及代碼示例


本文簡要介紹 pyspark.sql.streaming.DataStreamWriter.start 的用法。

用法:

DataStreamWriter.start(path=None, format=None, outputMode=None, partitionBy=None, queryName=None, **options)

DataFrame 的內容流式傳輸到數據源。

數據源由 format 和一組 options 指定。如果不指定format,則使用spark.sql.sources.default配置的默認數據源。

2.0.0 版中的新函數。

參數

pathstr,可選

Hadoop 支持的文件係統中的路徑

formatstr,可選

用於保存的格式

outputModestr,可選

指定流式 DataFrame/Dataset 的數據如何寫入流式接收器。

  • append : 隻有流數據幀/數據集中的新行會被寫入接收器

  • complete : 每次這些更新時,流數據幀/數據集中的所有行都將被寫入接收器

  • update :每次有一些更新時,隻有在流數據幀/數據集中更新的行才會被寫入接收器。如果查詢不包含聚合,則相當於append模式。

partitionBystr 或列表,可選

分區列的名稱

queryNamestr,可選

查詢的唯一名稱

**optionsdict

所有其他字符串選項。您可能希望為大多數流提供checkpointLocation,但memory 流不需要它。

注意

這個 API 正在發展。

例子

>>> sq = sdf.writeStream.format('memory').queryName('this_query').start()
>>> sq.isActive
True
>>> sq.name
'this_query'
>>> sq.stop()
>>> sq.isActive
False
>>> sq = sdf.writeStream.trigger(processingTime='5 seconds').start(
...     queryName='that_query', outputMode="append", format='memory')
>>> sq.name
'that_query'
>>> sq.isActive
True
>>> sq.stop()

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.streaming.DataStreamWriter.start。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。