本文简要介绍
pyspark.sql.DataFrame.repartition
的用法。用法:
DataFrame.repartition(numPartitions, *cols)
返回由给定分区表达式分区的新
DataFrame
。生成的DataFrame
是散列分区的。版本 1.3.0 中的新函数。
- numPartitions:int
可以是 int 来指定目标分区数或列。如果它是一个Column,它将被用作第一个分区列。如果未指定,则使用默认的分区数。
- cols:str 或
Column
分区列。
在 1.6 版中更改:添加了可选参数来指定分区列。如果指定了分区列,则还使 numPartitions 可选。
参数:
例子:
>>> df.repartition(10).rdd.getNumPartitions() 10 >>> data = df.union(df).repartition("age") >>> data.show() +---+-----+ |age| name| +---+-----+ | 2|Alice| | 5| Bob| | 2|Alice| | 5| Bob| +---+-----+ >>> data = data.repartition(7, "age") >>> data.show() +---+-----+ |age| name| +---+-----+ | 2|Alice| | 5| Bob| | 2|Alice| | 5| Bob| +---+-----+ >>> data.rdd.getNumPartitions() 7 >>> data = data.repartition(3, "name", "age") >>> data.show() +---+-----+ |age| name| +---+-----+ | 5| Bob| | 5| Bob| | 2|Alice| | 2|Alice| +---+-----+
相关用法
- Python pyspark DataFrame.repartitionByRange用法及代码示例
- Python pyspark DataFrame.replace用法及代码示例
- Python pyspark DataFrame.reindex_like用法及代码示例
- Python pyspark DataFrame.reset_index用法及代码示例
- Python pyspark DataFrame.rename用法及代码示例
- Python pyspark DataFrame.registerTempTable用法及代码示例
- Python pyspark DataFrame.rename_axis用法及代码示例
- Python pyspark DataFrame.reindex用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.rsub用法及代码示例
- Python pyspark DataFrame.round用法及代码示例
- Python pyspark DataFrame.rollup用法及代码示例
- Python pyspark DataFrame.rank用法及代码示例
- Python pyspark DataFrame.rmul用法及代码示例
- Python pyspark DataFrame.rfloordiv用法及代码示例
- Python pyspark DataFrame.radd用法及代码示例
- Python pyspark DataFrame.rpow用法及代码示例
- Python pyspark DataFrame.rtruediv用法及代码示例
- Python pyspark DataFrame.rdiv用法及代码示例
- Python pyspark DataFrame.randomSplit用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.repartition。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。