PySpark RDD 的countByKey(~)
方法按pair RDD 中元素的键进行分组,并对每个组进行计数。
参数
该方法不接受任何参数。
返回值
一个DefaultDict[key,int]
。
例子
考虑以下PySpark对 RDD:
rdd = sc.parallelize([("a",5),("a",1),("b",2),("c",4)])
rdd.collect()
[('a', 5), ('a', 1), ('b', 2), ('c', 4)]
在这里,我们使用 parallelize(~)
方法创建一个RDD。
获取 PySpark Pair RDD 中每个组的计数
按键分组,并获取每组的计数:
rdd.countByKey()
defaultdict(int, {'a': 2, 'b': 1, 'c': 1})
这里,返回的值是 DefaultDict
,它本质上是一个字典,其中访问字典中不存在的值将返回 0
而不是抛出错误。
您可以像访问普通字典一样访问键的计数:
counts = rdd.countByKey()
counts["a"]
2
访问不存在的键的计数将返回 0
:
counts = rdd.countByKey()
counts["z"]
0
相关用法
- Python PySpark RDD count方法用法及代码示例
- Python PySpark RDD collect方法用法及代码示例
- Python PySpark RDD coalesce方法用法及代码示例
- Python PySpark RDD collectAsMap方法用法及代码示例
- Python PySpark RDD zip方法用法及代码示例
- Python PySpark RDD repartition方法用法及代码示例
- Python PySpark RDD partitionBy方法用法及代码示例
- Python PySpark RDD reduceByKey方法用法及代码示例
- Python PySpark RDD zipWithIndex方法用法及代码示例
- Python PySpark RDD filter方法用法及代码示例
- Python PySpark RDD first方法用法及代码示例
- Python PySpark RDD keys方法用法及代码示例
- Python PySpark RDD glom方法用法及代码示例
- Python PySpark RDD getNumPartitions方法用法及代码示例
- Python PySpark RDD map方法用法及代码示例
- Python Django Response.json用法及代码示例
- Python Django Repeat用法及代码示例
- Python Django RandomUUID用法及代码示例
- Python Django RelatedManager.set用法及代码示例
- Python RLock acquire()用法及代码示例
- Python Django RelatedManager.remove用法及代码示例
- Python Random.Choices()用法及代码示例
- Python Django RequestContext用法及代码示例
- Python Django Reverse用法及代码示例
- Python NumPy Random Generator uniform方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | countByKey method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。