當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark DataFrame collect方法用法及代碼示例


PySpark DataFrame 的collect() 方法將DataFrame 的所有記錄作為Row 對象的列表返回。

返回值

Row 對象的列表。

例子

考慮以下PySpark DataFrame:

df = spark.createDataFrame([["Alex", 25], ["Bob", 30]], ["name", "age"])
df.show()



+----+---+
|name|age|
+----+---+
|Alex| 25|
| Bob| 30|
+----+---+

獲取 PySpark DataFrame 的所有行作為 Row 對象的列表

要將所有行獲取為 Row 對象列表:

df.collect()



[Row(name='Alex', age=25), Row(name='Bob', age=30)]
警告

在底層,collect(~) 方法將分散在工作節點上的所有數據發送到主派生節點。這意味著如果數據量很大,那麽驅動程序將耗盡內存並拋出錯誤。

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | collect method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。