本文简要介绍
pyspark.sql.DataFrame.repartitionByRange
的用法。用法:
DataFrame.repartitionByRange(numPartitions, *cols)
返回由给定分区表达式分区的新
DataFrame
。生成的DataFrame
是范围分区的。必须至少指定一个partition-by 表达式。如果未指定明确的排序顺序,则假定为 “ascending nulls first”。
2.4.0 版中的新函数。
- numPartitions:int
可以是 int 来指定目标分区数或列。如果它是一个Column,它将被用作第一个分区列。如果未指定,则使用默认的分区数。
- cols:str 或
Column
分区列。
参数:
注意:
由于性能原因,此方法使用抽样来估计范围。因此,输出可能不一致,因为采样可以返回不同的值。样本大小可以由配置控制
spark.sql.execution.rangeExchange.sampleSizePerPartition
.例子:
>>> df.repartitionByRange(2, "age").rdd.getNumPartitions() 2 >>> df.show() +---+-----+ |age| name| +---+-----+ | 2|Alice| | 5| Bob| +---+-----+ >>> df.repartitionByRange(1, "age").rdd.getNumPartitions() 1 >>> data = df.repartitionByRange("age") >>> df.show() +---+-----+ |age| name| +---+-----+ | 2|Alice| | 5| Bob| +---+-----+
相关用法
- Python pyspark DataFrame.repartition用法及代码示例
- Python pyspark DataFrame.replace用法及代码示例
- Python pyspark DataFrame.reindex_like用法及代码示例
- Python pyspark DataFrame.reset_index用法及代码示例
- Python pyspark DataFrame.rename用法及代码示例
- Python pyspark DataFrame.registerTempTable用法及代码示例
- Python pyspark DataFrame.rename_axis用法及代码示例
- Python pyspark DataFrame.reindex用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.rsub用法及代码示例
- Python pyspark DataFrame.round用法及代码示例
- Python pyspark DataFrame.rollup用法及代码示例
- Python pyspark DataFrame.rank用法及代码示例
- Python pyspark DataFrame.rmul用法及代码示例
- Python pyspark DataFrame.rfloordiv用法及代码示例
- Python pyspark DataFrame.radd用法及代码示例
- Python pyspark DataFrame.rpow用法及代码示例
- Python pyspark DataFrame.rtruediv用法及代码示例
- Python pyspark DataFrame.rdiv用法及代码示例
- Python pyspark DataFrame.randomSplit用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.repartitionByRange。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。