當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python PySpark RDD glom方法用法及代碼示例

PySpark RDD 的glom() 方法返回保存每個分區內容的 RDD。

參數

該方法不接受任何參數。

返回值

PySpark RDD (pyspark.rdd.PipelinedRDD)。

例子

考慮以下 RDD:

# Create a RDD with 3 partitions
rdd = sc.parallelize(["A","B","C","A"], numSlices=3)
rdd.collect()



['A', 'B', 'C', 'A']

獲取PySpark RDD中每個分區的值

要查看這些分區的內容:

rdd.glom().collect()



[['A'], ['B'], ['C', 'A']]

這裏:

  • 分區 1 保存'A'

  • 分區 2 保存'B'

  • 分區 3 包含 'C''A'

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | glom method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。