本文簡要介紹
pyspark.sql.streaming.DataStreamWriter.foreachBatch
的用法。用法:
DataStreamWriter.foreachBatch(func)
設置要使用提供的函數處理的流查詢的輸出。僅在 micro-batch 執行模式下(即觸發不連續時)支持此函數。在每個 micro-batch 中,將在每個 micro-batch 中調用提供的函數,其中 (i) 輸出行作為 DataFrame 和 (ii) 批次標識符。 batchId 可用於重複數據刪除並以事務方式將輸出(即提供的數據集)寫入外部係統。對於相同的batchId,輸出DataFrame保證完全相同(假設查詢中的所有操作都是確定性的)。
2.4.0 版中的新函數。
注意:
這個 API 正在發展。
例子:
>>> def func(batch_df, batch_id): ... batch_df.collect() ... >>> writer = sdf.writeStream.foreachBatch(func)
相關用法
- Python pyspark DataStreamWriter.foreach用法及代碼示例
- Python pyspark DataStreamWriter.format用法及代碼示例
- Python pyspark DataStreamWriter.queryName用法及代碼示例
- Python pyspark DataStreamWriter.outputMode用法及代碼示例
- Python pyspark DataStreamWriter.start用法及代碼示例
- Python pyspark DataStreamWriter.trigger用法及代碼示例
- Python pyspark DataStreamReader.schema用法及代碼示例
- Python pyspark DataStreamReader.text用法及代碼示例
- Python pyspark DataStreamReader.option用法及代碼示例
- Python pyspark DataStreamReader.json用法及代碼示例
- Python pyspark DataStreamReader.parquet用法及代碼示例
- Python pyspark DataStreamReader.orc用法及代碼示例
- Python pyspark DataStreamReader.options用法及代碼示例
- Python pyspark DataStreamReader.load用法及代碼示例
- Python pyspark DataStreamReader.csv用法及代碼示例
- Python pyspark DataStreamReader.format用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark DataFrameWriter.partitionBy用法及代碼示例
- Python pyspark DataFrame.cumsum用法及代碼示例
- Python pyspark DataFrame.iloc用法及代碼示例
- Python pyspark DataFrame.dropDuplicates用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.streaming.DataStreamWriter.foreachBatch。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。