當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.repartition用法及代碼示例


本文簡要介紹 pyspark.sql.DataFrame.repartition 的用法。

用法:

DataFrame.repartition(numPartitions, *cols)

返回由給定分區表達式分區的新 DataFrame 。生成的 DataFrame 是散列分區的。

版本 1.3.0 中的新函數。

參數

numPartitionsint

可以是 int 來指定目標分區數或列。如果它是一個Column,它將被用作第一個分區列。如果未指定,則使用默認的分區數。

colsstr 或 Column

分區列。

在 1.6 版中更改:添加了可選參數來指定分區列。如果指定了分區列,則還使 numPartitions 可選。

例子

>>> df.repartition(10).rdd.getNumPartitions()
10
>>> data = df.union(df).repartition("age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  5|  Bob|
|  2|Alice|
|  5|  Bob|
+---+-----+
>>> data = data.repartition(7, "age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  5|  Bob|
|  2|Alice|
|  5|  Bob|
+---+-----+
>>> data.rdd.getNumPartitions()
7
>>> data = data.repartition(3, "name", "age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  5|  Bob|
|  5|  Bob|
|  2|Alice|
|  2|Alice|
+---+-----+

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.repartition。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。