當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark RDD keys方法用法及代碼示例


PySpark RDD 的 keys(~) 方法返回包含長度為 2 的元組的一對 RDD 的鍵。

參數

該方法不接受任何參數。

返回值

PySpark RDD (pyspark.rdd.PipelinedRDD)。

例子

考慮以下PySpark對 RDD:

# Create a RDD using the parallelize method
rdd = sc.parallelize([("a",3),("a",2),("b",5),("c",1)]) 
rdd.collect()



[('a', 3), ('a', 2), ('b', 5), ('c', 1)]

獲取PySpark中一對RDD的鍵

獲取 RDD 對的鍵作為字符串列表:

rdd.keys().collect()



['a', 'a', 'b', 'c']

請注意,如果 RDD 不是一對 RDD,則返回值:

rdd = sc.parallelize(["a","a","b","c"]) 
rdd.collect()



['a', 'a', 'b', 'c']

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | keys method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。