说明:
返回具有完全 numPartitions
分区的新 SparkDataFrame。此操作导致狭窄的依赖关系,例如如果您从 1000 个分区增加到 100 个分区,则不会有洗牌,而是 100 个新分区中的每一个都将占用当前分区中的 10 个。如果请求的分区数更大,它将保持当前的分区数。
用法:
coalesce(x, ...)
## S4 method for signature 'SparkDataFrame'
coalesce(x, numPartitions)
参数:
x
一个 SparkDataFrame。...
附加参数。numPartitions
要使用的分区数。
细节:
但是,如果您在 SparkDataFrame 上进行剧烈合并,例如对于 numPartitions = 1,这可能会导致您的计算发生在比您喜欢的更少的节点上(例如,在 numPartitions = 1 的情况下为一个节点)。为避免这种情况,请调用 repartition
。这将添加一个 shuffle 步骤,但意味着当前的上游分区将并行执行(无论当前分区是什么)。
注意:
从 2.1.1 开始合并(SparkDataFrame)
例子:
sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
newDF <- coalesce(df, 1L)
相关用法
- R SparkR count用法及代码示例
- R SparkR column用法及代码示例
- R SparkR columns用法及代码示例
- R SparkR corr用法及代码示例
- R SparkR cov用法及代码示例
- R SparkR collect用法及代码示例
- R SparkR coltypes用法及代码示例
- R SparkR createDataFrame用法及代码示例
- R SparkR cube用法及代码示例
- R SparkR cast用法及代码示例
- R SparkR cacheTable用法及代码示例
- R SparkR checkpoint用法及代码示例
- R SparkR createOrReplaceTempView用法及代码示例
- R SparkR crosstab用法及代码示例
- R SparkR cache用法及代码示例
- R SparkR currentDatabase用法及代码示例
- R SparkR createTable用法及代码示例
- R SparkR crossJoin用法及代码示例
- R SparkR createExternalTable用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Coalesce。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。