PySpark RDD 的glom() 方法返回保存每個分區內容的 RDD。
參數
該方法不接受任何參數。
返回值
PySpark RDD (pyspark.rdd.PipelinedRDD)。
例子
考慮以下 RDD:
# Create a RDD with 3 partitions
rdd = sc.parallelize(["A","B","C","A"], numSlices=3)
rdd.collect()
['A', 'B', 'C', 'A']獲取PySpark RDD中每個分區的值
要查看這些分區的內容:
rdd.glom().collect()
[['A'], ['B'], ['C', 'A']]這裏:
- 
分區 1 保存 'A'
- 
分區 2 保存 'B'
- 
分區 3 包含 'C'和'A'
相關用法
- Python PySpark RDD getNumPartitions方法用法及代碼示例
- Python PySpark RDD zip方法用法及代碼示例
- Python PySpark RDD collect方法用法及代碼示例
- Python PySpark RDD repartition方法用法及代碼示例
- Python PySpark RDD countByKey方法用法及代碼示例
- Python PySpark RDD partitionBy方法用法及代碼示例
- Python PySpark RDD reduceByKey方法用法及代碼示例
- Python PySpark RDD coalesce方法用法及代碼示例
- Python PySpark RDD zipWithIndex方法用法及代碼示例
- Python PySpark RDD count方法用法及代碼示例
- Python PySpark RDD filter方法用法及代碼示例
- Python PySpark RDD collectAsMap方法用法及代碼示例
- Python PySpark RDD first方法用法及代碼示例
- Python PySpark RDD keys方法用法及代碼示例
- Python PySpark RDD map方法用法及代碼示例
- Python Django Response.json用法及代碼示例
- Python Django Repeat用法及代碼示例
- Python Django RandomUUID用法及代碼示例
- Python Django RelatedManager.set用法及代碼示例
- Python RLock acquire()用法及代碼示例
- Python Django RelatedManager.remove用法及代碼示例
- Python Random.Choices()用法及代碼示例
- Python Django RequestContext用法及代碼示例
- Python Django Reverse用法及代碼示例
- Python NumPy Random Generator uniform方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | glom method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。
