Python PySpark RDD countByKey方法用法及代码示例

PySpark RDD 的countByKey(~) 方法按pair RDD 中元素的键进行分组，并对每个组进行计数。

该方法不接受任何参数。

一个DefaultDict[key,int]。

考虑以下PySpark对 RDD：

rdd = sc.parallelize([("a",5),("a",1),("b",2),("c",4)])
rdd.collect()



[('a', 5), ('a', 1), ('b', 2), ('c', 4)]

在这里，我们使用 parallelize(~) 方法创建一个RDD。

按键分组，并获取每组的计数：

rdd.countByKey()



defaultdict(int, {'a': 2, 'b': 1, 'c': 1})

这里，返回的值是 DefaultDict ，它本质上是一个字典，其中访问字典中不存在的值将返回 0 而不是抛出错误。

您可以像访问普通字典一样访问键的计数：

counts = rdd.countByKey()
counts["a"]



2

访问不存在的键的计数将返回 0 ：

counts = rdd.countByKey()
counts["z"]



0

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | countByKey method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。