当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.repartition用法及代码示例


本文简要介绍 pyspark.sql.DataFrame.repartition 的用法。

用法:

DataFrame.repartition(numPartitions, *cols)

返回由给定分区表达式分区的新 DataFrame 。生成的 DataFrame 是散列分区的。

版本 1.3.0 中的新函数。

参数

numPartitionsint

可以是 int 来指定目标分区数或列。如果它是一个Column,它将被用作第一个分区列。如果未指定,则使用默认的分区数。

colsstr 或 Column

分区列。

在 1.6 版中更改:添加了可选参数来指定分区列。如果指定了分区列,则还使 numPartitions 可选。

例子

>>> df.repartition(10).rdd.getNumPartitions()
10
>>> data = df.union(df).repartition("age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  5|  Bob|
|  2|Alice|
|  5|  Bob|
+---+-----+
>>> data = data.repartition(7, "age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  5|  Bob|
|  2|Alice|
|  5|  Bob|
+---+-----+
>>> data.rdd.getNumPartitions()
7
>>> data = data.repartition(3, "name", "age")
>>> data.show()
+---+-----+
|age| name|
+---+-----+
|  5|  Bob|
|  5|  Bob|
|  2|Alice|
|  2|Alice|
+---+-----+

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.repartition。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。