Python PySpark RDD countByKey方法用法及代碼示例

PySpark RDD 的countByKey(~) 方法按pair RDD 中元素的鍵進行分組，並對每個組進行計數。

該方法不接受任何參數。

一個DefaultDict[key,int]。

考慮以下PySpark對 RDD：

rdd = sc.parallelize([("a",5),("a",1),("b",2),("c",4)])
rdd.collect()



[('a', 5), ('a', 1), ('b', 2), ('c', 4)]

在這裏，我們使用 parallelize(~) 方法創建一個RDD。

按鍵分組，並獲取每組的計數：

rdd.countByKey()



defaultdict(int, {'a': 2, 'b': 1, 'c': 1})

這裏，返回的值是 DefaultDict ，它本質上是一個字典，其中訪問字典中不存在的值將返回 0 而不是拋出錯誤。

您可以像訪問普通字典一樣訪問鍵的計數：

counts = rdd.countByKey()
counts["a"]



2

訪問不存在的鍵的計數將返回 0 ：

counts = rdd.countByKey()
counts["z"]



0

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | countByKey method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。