PySpark RDD 的countByKey(~)
方法按pair RDD 中元素的鍵進行分組,並對每個組進行計數。
參數
該方法不接受任何參數。
返回值
一個DefaultDict[key,int]
。
例子
考慮以下PySpark對 RDD:
rdd = sc.parallelize([("a",5),("a",1),("b",2),("c",4)])
rdd.collect()
[('a', 5), ('a', 1), ('b', 2), ('c', 4)]
在這裏,我們使用 parallelize(~)
方法創建一個RDD。
獲取 PySpark Pair RDD 中每個組的計數
按鍵分組,並獲取每組的計數:
rdd.countByKey()
defaultdict(int, {'a': 2, 'b': 1, 'c': 1})
這裏,返回的值是 DefaultDict
,它本質上是一個字典,其中訪問字典中不存在的值將返回 0
而不是拋出錯誤。
您可以像訪問普通字典一樣訪問鍵的計數:
counts = rdd.countByKey()
counts["a"]
2
訪問不存在的鍵的計數將返回 0
:
counts = rdd.countByKey()
counts["z"]
0
相關用法
- Python PySpark RDD count方法用法及代碼示例
- Python PySpark RDD collect方法用法及代碼示例
- Python PySpark RDD coalesce方法用法及代碼示例
- Python PySpark RDD collectAsMap方法用法及代碼示例
- Python PySpark RDD zip方法用法及代碼示例
- Python PySpark RDD repartition方法用法及代碼示例
- Python PySpark RDD partitionBy方法用法及代碼示例
- Python PySpark RDD reduceByKey方法用法及代碼示例
- Python PySpark RDD zipWithIndex方法用法及代碼示例
- Python PySpark RDD filter方法用法及代碼示例
- Python PySpark RDD first方法用法及代碼示例
- Python PySpark RDD keys方法用法及代碼示例
- Python PySpark RDD glom方法用法及代碼示例
- Python PySpark RDD getNumPartitions方法用法及代碼示例
- Python PySpark RDD map方法用法及代碼示例
- Python Django Response.json用法及代碼示例
- Python Django Repeat用法及代碼示例
- Python Django RandomUUID用法及代碼示例
- Python Django RelatedManager.set用法及代碼示例
- Python RLock acquire()用法及代碼示例
- Python Django RelatedManager.remove用法及代碼示例
- Python Random.Choices()用法及代碼示例
- Python Django RequestContext用法及代碼示例
- Python Django Reverse用法及代碼示例
- Python NumPy Random Generator uniform方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | countByKey method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。