Python pyspark DataFrameWriter.bucketBy用法及代码示例

本文简要介绍 pyspark.sql.DataFrameWriter.bucketBy 的用法。

用法: DataFrameWriter.bucketBy(numBuckets, col, *cols)

按给定列存储输出。如果指定，则输出布局在文件系统上，类似于 Hive 的分桶方案，但具有不同的桶哈希函数，并且与 Hive 的分桶不兼容。

2.3.0 版中的新函数。

适用于与 DataFrameWriter.saveAsTable() 结合使用的基于文件的数据源。

>>> (df.write.format('parquet')  
...     .bucketBy(100, 'year', 'month')
...     .mode("overwrite")
...     .saveAsTable('bucketed_table'))

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrameWriter.bucketBy。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。