當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataStreamWriter.foreachBatch用法及代碼示例


本文簡要介紹 pyspark.sql.streaming.DataStreamWriter.foreachBatch 的用法。

用法:

DataStreamWriter.foreachBatch(func)

設置要使用提供的函數處理的流查詢的輸出。僅在 micro-batch 執行模式下(即觸發不連續時)支持此函數。在每個 micro-batch 中,將在每個 micro-batch 中調用提供的函數,其中 (i) 輸出行作為 DataFrame 和 (ii) 批次標識符。 batchId 可用於重複數據刪除並以事務方式將輸出(即提供的數據集)寫入外部係統。對於相同的batchId,輸出DataFrame保證完全相同(假設查詢中的所有操作都是確定性的)。

2.4.0 版中的新函數。

注意

這個 API 正在發展。

例子

>>> def func(batch_df, batch_id):
...     batch_df.collect()
...
>>> writer = sdf.writeStream.foreachBatch(func)

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.streaming.DataStreamWriter.foreachBatch。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。