PySpark RDD 的glom()
方法返回保存每个分区内容的 RDD。
参数
该方法不接受任何参数。
返回值
PySpark RDD (pyspark.rdd.PipelinedRDD
)。
例子
考虑以下 RDD:
# Create a RDD with 3 partitions
rdd = sc.parallelize(["A","B","C","A"], numSlices=3)
rdd.collect()
['A', 'B', 'C', 'A']
获取PySpark RDD中每个分区的值
要查看这些分区的内容:
rdd.glom().collect()
[['A'], ['B'], ['C', 'A']]
这里:
-
分区 1 保存
'A'
-
分区 2 保存
'B'
-
分区 3 包含
'C'
和'A'
相关用法
- Python PySpark RDD getNumPartitions方法用法及代码示例
- Python PySpark RDD zip方法用法及代码示例
- Python PySpark RDD collect方法用法及代码示例
- Python PySpark RDD repartition方法用法及代码示例
- Python PySpark RDD countByKey方法用法及代码示例
- Python PySpark RDD partitionBy方法用法及代码示例
- Python PySpark RDD reduceByKey方法用法及代码示例
- Python PySpark RDD coalesce方法用法及代码示例
- Python PySpark RDD zipWithIndex方法用法及代码示例
- Python PySpark RDD count方法用法及代码示例
- Python PySpark RDD filter方法用法及代码示例
- Python PySpark RDD collectAsMap方法用法及代码示例
- Python PySpark RDD first方法用法及代码示例
- Python PySpark RDD keys方法用法及代码示例
- Python PySpark RDD map方法用法及代码示例
- Python Django Response.json用法及代码示例
- Python Django Repeat用法及代码示例
- Python Django RandomUUID用法及代码示例
- Python Django RelatedManager.set用法及代码示例
- Python RLock acquire()用法及代码示例
- Python Django RelatedManager.remove用法及代码示例
- Python Random.Choices()用法及代码示例
- Python Django RequestContext用法及代码示例
- Python Django Reverse用法及代码示例
- Python NumPy Random Generator uniform方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | glom method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。