本文简要介绍
pyspark.sql.streaming.DataStreamWriter.foreachBatch
的用法。用法:
DataStreamWriter.foreachBatch(func)
设置要使用提供的函数处理的流查询的输出。仅在 micro-batch 执行模式下(即触发不连续时)支持此函数。在每个 micro-batch 中,将在每个 micro-batch 中调用提供的函数,其中 (i) 输出行作为 DataFrame 和 (ii) 批次标识符。 batchId 可用于重复数据删除并以事务方式将输出(即提供的数据集)写入外部系统。对于相同的batchId,输出DataFrame保证完全相同(假设查询中的所有操作都是确定性的)。
2.4.0 版中的新函数。
注意:
这个 API 正在发展。
例子:
>>> def func(batch_df, batch_id): ... batch_df.collect() ... >>> writer = sdf.writeStream.foreachBatch(func)
相关用法
- Python pyspark DataStreamWriter.foreach用法及代码示例
- Python pyspark DataStreamWriter.format用法及代码示例
- Python pyspark DataStreamWriter.queryName用法及代码示例
- Python pyspark DataStreamWriter.outputMode用法及代码示例
- Python pyspark DataStreamWriter.start用法及代码示例
- Python pyspark DataStreamWriter.trigger用法及代码示例
- Python pyspark DataStreamReader.schema用法及代码示例
- Python pyspark DataStreamReader.text用法及代码示例
- Python pyspark DataStreamReader.option用法及代码示例
- Python pyspark DataStreamReader.json用法及代码示例
- Python pyspark DataStreamReader.parquet用法及代码示例
- Python pyspark DataStreamReader.orc用法及代码示例
- Python pyspark DataStreamReader.options用法及代码示例
- Python pyspark DataStreamReader.load用法及代码示例
- Python pyspark DataStreamReader.csv用法及代码示例
- Python pyspark DataStreamReader.format用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrameWriter.partitionBy用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.streaming.DataStreamWriter.foreachBatch。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。