當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrameWriter.bucketBy用法及代碼示例


本文簡要介紹 pyspark.sql.DataFrameWriter.bucketBy 的用法。

用法:

DataFrameWriter.bucketBy(numBuckets, col, *cols)

按給定列存儲輸出。如果指定,則輸出布局在文件係統上,類似於 Hive 的分桶方案,但具有不同的桶哈希函數,並且與 Hive 的分桶不兼容。

2.3.0 版中的新函數。

參數

numBucketsint

要保存的桶數

colstr、列表或元組

列名或名稱列表。

colsstr

附加名稱(可選)。如果col 是一個列表,它應該是空的。

注意

適用於與 DataFrameWriter.saveAsTable() 結合使用的基於文件的數據源。

例子

>>> (df.write.format('parquet')  
...     .bucketBy(100, 'year', 'month')
...     .mode("overwrite")
...     .saveAsTable('bucketed_table'))

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrameWriter.bucketBy。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。