PySpark RDD 的 keys(~)
方法返回包含长度为 2 的元组的一对 RDD 的键。
参数
该方法不接受任何参数。
返回值
PySpark RDD (pyspark.rdd.PipelinedRDD
)。
例子
考虑以下PySpark对 RDD:
# Create a RDD using the parallelize method
rdd = sc.parallelize([("a",3),("a",2),("b",5),("c",1)])
rdd.collect()
[('a', 3), ('a', 2), ('b', 5), ('c', 1)]
获取PySpark中一对RDD的键
获取 RDD 对的键作为字符串列表:
rdd.keys().collect()
['a', 'a', 'b', 'c']
请注意,如果 RDD 不是一对 RDD,则返回值:
rdd = sc.parallelize(["a","a","b","c"])
rdd.collect()
['a', 'a', 'b', 'c']
相关用法
- Python PySpark RDD zip方法用法及代码示例
- Python PySpark RDD collect方法用法及代码示例
- Python PySpark RDD repartition方法用法及代码示例
- Python PySpark RDD countByKey方法用法及代码示例
- Python PySpark RDD partitionBy方法用法及代码示例
- Python PySpark RDD reduceByKey方法用法及代码示例
- Python PySpark RDD coalesce方法用法及代码示例
- Python PySpark RDD zipWithIndex方法用法及代码示例
- Python PySpark RDD count方法用法及代码示例
- Python PySpark RDD filter方法用法及代码示例
- Python PySpark RDD collectAsMap方法用法及代码示例
- Python PySpark RDD first方法用法及代码示例
- Python PySpark RDD glom方法用法及代码示例
- Python PySpark RDD getNumPartitions方法用法及代码示例
- Python PySpark RDD map方法用法及代码示例
- Python Django Response.json用法及代码示例
- Python Django Repeat用法及代码示例
- Python Django RandomUUID用法及代码示例
- Python Django RelatedManager.set用法及代码示例
- Python RLock acquire()用法及代码示例
- Python Django RelatedManager.remove用法及代码示例
- Python Random.Choices()用法及代码示例
- Python Django RequestContext用法及代码示例
- Python Django Reverse用法及代码示例
- Python NumPy Random Generator uniform方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | keys method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。