当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataStreamWriter.foreachBatch用法及代码示例


本文简要介绍 pyspark.sql.streaming.DataStreamWriter.foreachBatch 的用法。

用法:

DataStreamWriter.foreachBatch(func)

设置要使用提供的函数处理的流查询的输出。仅在 micro-batch 执行模式下(即触发不连续时)支持此函数。在每个 micro-batch 中,将在每个 micro-batch 中调用提供的函数,其中 (i) 输出行作为 DataFrame 和 (ii) 批次标识符。 batchId 可用于重复数据删除并以事务方式将输出(即提供的数据集)写入外部系统。对于相同的batchId,输出DataFrame保证完全相同(假设查询中的所有操作都是确定性的)。

2.4.0 版中的新函数。

注意

这个 API 正在发展。

例子

>>> def func(batch_df, batch_id):
...     batch_df.collect()
...
>>> writer = sdf.writeStream.foreachBatch(func)

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.streaming.DataStreamWriter.foreachBatch。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。