Python pyspark DataStreamWriter.foreachBatch用法及代碼示例

本文簡要介紹 pyspark.sql.streaming.DataStreamWriter.foreachBatch 的用法。

用法: DataStreamWriter.foreachBatch(func)

設置要使用提供的函數處理的流查詢的輸出。僅在 micro-batch 執行模式下(即觸發不連續時)支持此函數。在每個 micro-batch 中，將在每個 micro-batch 中調用提供的函數，其中 (i) 輸出行作為 DataFrame 和 (ii) 批次標識符。 batchId 可用於重複數據刪除並以事務方式將輸出(即提供的數據集)寫入外部係統。對於相同的batchId，輸出DataFrame保證完全相同(假設查詢中的所有操作都是確定性的)。

2.4.0 版中的新函數。

注意：

這個 API 正在發展。

例子：

>>> def func(batch_df, batch_id):
...     batch_df.collect()
...
>>> writer = sdf.writeStream.foreachBatch(func)

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.streaming.DataStreamWriter.foreachBatch。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。