本文简要介绍
pyspark.sql.streaming.DataStreamWriter.start
的用法。用法:
DataStreamWriter.start(path=None, format=None, outputMode=None, partitionBy=None, queryName=None, **options)
将
DataFrame
的内容流式传输到数据源。数据源由
format
和一组options
指定。如果不指定format
,则使用spark.sql.sources.default
配置的默认数据源。2.0.0 版中的新函数。
- path:str,可选
Hadoop 支持的文件系统中的路径
- format:str,可选
用于保存的格式
- outputMode:str,可选
指定流式 DataFrame/Dataset 的数据如何写入流式接收器。
append
: 只有流数据帧/数据集中的新行会被写入接收器complete
: 每次这些更新时,流数据帧/数据集中的所有行都将被写入接收器update
:每次有一些更新时,只有在流数据帧/数据集中更新的行才会被写入接收器。如果查询不包含聚合,则相当于append
模式。
- partitionBy:str 或列表,可选
分区列的名称
- queryName:str,可选
查询的唯一名称
- **options:dict
所有其他字符串选项。您可能希望为大多数流提供
checkpointLocation
,但memory
流不需要它。
参数:
注意:
这个 API 正在发展。
例子:
>>> sq = sdf.writeStream.format('memory').queryName('this_query').start() >>> sq.isActive True >>> sq.name 'this_query' >>> sq.stop() >>> sq.isActive False >>> sq = sdf.writeStream.trigger(processingTime='5 seconds').start( ... queryName='that_query', outputMode="append", format='memory') >>> sq.name 'that_query' >>> sq.isActive True >>> sq.stop()
相关用法
- Python pyspark DataStreamWriter.foreach用法及代码示例
- Python pyspark DataStreamWriter.queryName用法及代码示例
- Python pyspark DataStreamWriter.foreachBatch用法及代码示例
- Python pyspark DataStreamWriter.outputMode用法及代码示例
- Python pyspark DataStreamWriter.format用法及代码示例
- Python pyspark DataStreamWriter.trigger用法及代码示例
- Python pyspark DataStreamReader.schema用法及代码示例
- Python pyspark DataStreamReader.text用法及代码示例
- Python pyspark DataStreamReader.option用法及代码示例
- Python pyspark DataStreamReader.json用法及代码示例
- Python pyspark DataStreamReader.parquet用法及代码示例
- Python pyspark DataStreamReader.orc用法及代码示例
- Python pyspark DataStreamReader.options用法及代码示例
- Python pyspark DataStreamReader.load用法及代码示例
- Python pyspark DataStreamReader.csv用法及代码示例
- Python pyspark DataStreamReader.format用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrameWriter.partitionBy用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.streaming.DataStreamWriter.start。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。