当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark SQL Functions array方法用法及代码示例


PySpark SQL 函数的 array(~) 方法将多个列组合成一列数组。

注意

如果要组合 array-type 的多个列,请改用 concat(~)

参数

1.*cols | stringColumn

要组合的列。

返回值

新的 PySpark 列。

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([['A', 'a', '1'], ['B', 'b', '2'], ['C', 'c', '3']], ['col1', 'col2', 'col3'])
df.show()



+----+----+----+
|col1|col2|col3|
+----+----+----+
|   A|   a|   1|
|   B|   b|   2|
|   C|   c|   3|
+----+----+----+

要将 col1col2col3 列合并到单列数组中,请使用 array(~) 方法:

from pyspark.sql import functions as F
# Assign label to PySpark column returned by array(~) using alias(~)
df.select(F.array('col1','col2','col3').alias('combined_col')).show()



+------------+
|combined_col|
+------------+
|   [A, a, 1]|
|   [B, b, 2]|
|   [C, c, 3]|
+------------+

我们还可以提供 Column 对象,而不是传递列标签:

df.select(F.array(F.col('col1'),df['col2'],'col3').alias('combined_col')).show()



+------------+
|combined_col|
+------------+
|   [A, a, 1]|
|   [B, b, 2]|
|   [C, c, 3]|
+------------+

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark SQL Functions | array method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。