Python pyspark DataStreamWriter.foreachBatch用法及代码示例

本文简要介绍 pyspark.sql.streaming.DataStreamWriter.foreachBatch 的用法。

用法: DataStreamWriter.foreachBatch(func)

设置要使用提供的函数处理的流查询的输出。仅在 micro-batch 执行模式下(即触发不连续时)支持此函数。在每个 micro-batch 中，将在每个 micro-batch 中调用提供的函数，其中 (i) 输出行作为 DataFrame 和 (ii) 批次标识符。 batchId 可用于重复数据删除并以事务方式将输出(即提供的数据集)写入外部系统。对于相同的batchId，输出DataFrame保证完全相同(假设查询中的所有操作都是确定性的)。

2.4.0 版中的新函数。

注意：

这个 API 正在发展。

例子：

>>> def func(batch_df, batch_id):
...     batch_df.collect()
...
>>> writer = sdf.writeStream.foreachBatch(func)

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.streaming.DataStreamWriter.foreachBatch。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。