PySpark RDD 的 keys(~)
方法返回包含長度為 2 的元組的一對 RDD 的鍵。
參數
該方法不接受任何參數。
返回值
PySpark RDD (pyspark.rdd.PipelinedRDD
)。
例子
考慮以下PySpark對 RDD:
# Create a RDD using the parallelize method
rdd = sc.parallelize([("a",3),("a",2),("b",5),("c",1)])
rdd.collect()
[('a', 3), ('a', 2), ('b', 5), ('c', 1)]
獲取PySpark中一對RDD的鍵
獲取 RDD 對的鍵作為字符串列表:
rdd.keys().collect()
['a', 'a', 'b', 'c']
請注意,如果 RDD 不是一對 RDD,則返回值:
rdd = sc.parallelize(["a","a","b","c"])
rdd.collect()
['a', 'a', 'b', 'c']
相關用法
- Python PySpark RDD zip方法用法及代碼示例
- Python PySpark RDD collect方法用法及代碼示例
- Python PySpark RDD repartition方法用法及代碼示例
- Python PySpark RDD countByKey方法用法及代碼示例
- Python PySpark RDD partitionBy方法用法及代碼示例
- Python PySpark RDD reduceByKey方法用法及代碼示例
- Python PySpark RDD coalesce方法用法及代碼示例
- Python PySpark RDD zipWithIndex方法用法及代碼示例
- Python PySpark RDD count方法用法及代碼示例
- Python PySpark RDD filter方法用法及代碼示例
- Python PySpark RDD collectAsMap方法用法及代碼示例
- Python PySpark RDD first方法用法及代碼示例
- Python PySpark RDD glom方法用法及代碼示例
- Python PySpark RDD getNumPartitions方法用法及代碼示例
- Python PySpark RDD map方法用法及代碼示例
- Python Django Response.json用法及代碼示例
- Python Django Repeat用法及代碼示例
- Python Django RandomUUID用法及代碼示例
- Python Django RelatedManager.set用法及代碼示例
- Python RLock acquire()用法及代碼示例
- Python Django RelatedManager.remove用法及代碼示例
- Python Random.Choices()用法及代碼示例
- Python Django RequestContext用法及代碼示例
- Python Django Reverse用法及代碼示例
- Python NumPy Random Generator uniform方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | keys method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。