当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark RDD keys方法用法及代码示例


PySpark RDD 的 keys(~) 方法返回包含长度为 2 的元组的一对 RDD 的键。

参数

该方法不接受任何参数。

返回值

PySpark RDD (pyspark.rdd.PipelinedRDD)。

例子

考虑以下PySpark对 RDD:

# Create a RDD using the parallelize method
rdd = sc.parallelize([("a",3),("a",2),("b",5),("c",1)]) 
rdd.collect()



[('a', 3), ('a', 2), ('b', 5), ('c', 1)]

获取PySpark中一对RDD的键

获取 RDD 对的键作为字符串列表:

rdd.keys().collect()



['a', 'a', 'b', 'c']

请注意,如果 RDD 不是一对 RDD,则返回值:

rdd = sc.parallelize(["a","a","b","c"]) 
rdd.collect()



['a', 'a', 'b', 'c']

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | keys method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。