当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrameWriter.bucketBy用法及代码示例


本文简要介绍 pyspark.sql.DataFrameWriter.bucketBy 的用法。

用法:

DataFrameWriter.bucketBy(numBuckets, col, *cols)

按给定列存储输出。如果指定,则输出布局在文件系统上,类似于 Hive 的分桶方案,但具有不同的桶哈希函数,并且与 Hive 的分桶不兼容。

2.3.0 版中的新函数。

参数

numBucketsint

要保存的桶数

colstr、列表或元组

列名或名称列表。

colsstr

附加名称(可选)。如果col 是一个列表,它应该是空的。

注意

适用于与 DataFrameWriter.saveAsTable() 结合使用的基于文件的数据源。

例子

>>> (df.write.format('parquet')  
...     .bucketBy(100, 'year', 'month')
...     .mode("overwrite")
...     .saveAsTable('bucketed_table'))

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrameWriter.bucketBy。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。