当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark DataFrame collect方法用法及代码示例


PySpark DataFrame 的collect() 方法将DataFrame 的所有记录作为Row 对象的列表返回。

返回值

Row 对象的列表。

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([["Alex", 25], ["Bob", 30]], ["name", "age"])
df.show()



+----+---+
|name|age|
+----+---+
|Alex| 25|
| Bob| 30|
+----+---+

获取 PySpark DataFrame 的所有行作为 Row 对象的列表

要将所有行获取为 Row 对象列表:

df.collect()



[Row(name='Alex', age=25), Row(name='Bob', age=30)]
警告

在底层,collect(~) 方法将分散在工作节点上的所有数据发送到主派生节点。这意味着如果数据量很大,那么驱动程序将耗尽内存并抛出错误。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | collect method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。