Python pyspark DataFrameWriter.bucketBy用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrameWriter.bucketBy 的用法。

用法: DataFrameWriter.bucketBy(numBuckets, col, *cols)

按給定列存儲輸出。如果指定，則輸出布局在文件係統上，類似於 Hive 的分桶方案，但具有不同的桶哈希函數，並且與 Hive 的分桶不兼容。

2.3.0 版中的新函數。

適用於與 DataFrameWriter.saveAsTable() 結合使用的基於文件的數據源。

>>> (df.write.format('parquet')  
...     .bucketBy(100, 'year', 'month')
...     .mode("overwrite")
...     .saveAsTable('bucketed_table'))

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrameWriter.bucketBy。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。