當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark RDD countByKey方法用法及代碼示例


PySpark RDD 的countByKey(~) 方法按pair RDD 中元素的鍵進行分組,並對每個組進行計數。

參數

該方法不接受任何參數。

返回值

一個DefaultDict[key,int]

例子

考慮以下PySpark對 RDD:

rdd = sc.parallelize([("a",5),("a",1),("b",2),("c",4)])
rdd.collect()



[('a', 5), ('a', 1), ('b', 2), ('c', 4)]

在這裏,我們使用 parallelize(~) 方法創建一個RDD。

獲取 PySpark Pair RDD 中每個組的計數

按鍵分組,並獲取每組的計數:

rdd.countByKey()



defaultdict(int, {'a': 2, 'b': 1, 'c': 1})

這裏,返回的值是 DefaultDict ,它本質上是一個字典,其中訪問字典中不存在的值將返回 0 而不是拋出錯誤。

您可以像訪問普通字典一樣訪問鍵的計數:

counts = rdd.countByKey()
counts["a"]



2

訪問不存在的鍵的計數將返回 0

counts = rdd.countByKey()
counts["z"]



0

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | countByKey method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。