当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark RDD countByKey方法用法及代码示例


PySpark RDD 的countByKey(~) 方法按pair RDD 中元素的键进行分组,并对每个组进行计数。

参数

该方法不接受任何参数。

返回值

一个DefaultDict[key,int]

例子

考虑以下PySpark对 RDD:

rdd = sc.parallelize([("a",5),("a",1),("b",2),("c",4)])
rdd.collect()



[('a', 5), ('a', 1), ('b', 2), ('c', 4)]

在这里,我们使用 parallelize(~) 方法创建一个RDD。

获取 PySpark Pair RDD 中每个组的计数

按键分组,并获取每组的计数:

rdd.countByKey()



defaultdict(int, {'a': 2, 'b': 1, 'c': 1})

这里,返回的值是 DefaultDict ,它本质上是一个字典,其中访问字典中不存在的值将返回 0 而不是抛出错误。

您可以像访问普通字典一样访问键的计数:

counts = rdd.countByKey()
counts["a"]



2

访问不存在的键的计数将返回 0

counts = rdd.countByKey()
counts["z"]



0

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | countByKey method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。