Python pyspark DataFrame.repartition用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrame.repartition 的用法。

用法: DataFrame.repartition(numPartitions, *cols)

返回由給定分區表達式分區的新 DataFrame 。生成的 DataFrame 是散列分區的。

版本 1.3.0 中的新函數。

參數：

numPartitions：int: 可以是 int 來指定目標分區數或列。如果它是一個Column，它將被用作第一個分區列。如果未指定，則使用默認的分區數。
cols：str 或 Column: 分區列。

在 1.6 版中更改：添加了可選參數來指定分區列。如果指定了分區列，則還使 numPartitions 可選。

例子：

>>> df.repartition(10).rdd.getNumPartitions()
10
>>> data = df.union(df).repartition("age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  5|  Bob|
|  2|Alice|
|  5|  Bob|
+---+-----+
>>> data = data.repartition(7, "age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  5|  Bob|
|  2|Alice|
|  5|  Bob|
+---+-----+
>>> data.rdd.getNumPartitions()
7
>>> data = data.repartition(3, "name", "age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  5|  Bob|
|  5|  Bob|
|  2|Alice|
|  2|Alice|
+---+-----+

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.repartition。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。