當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark SQL Functions array方法用法及代碼示例


PySpark SQL 函數的 array(~) 方法將多個列組合成一列數組。

注意

如果要組合 array-type 的多個列,請改用 concat(~)

參數

1.*cols | stringColumn

要組合的列。

返回值

新的 PySpark 列。

例子

考慮以下PySpark DataFrame:

df = spark.createDataFrame([['A', 'a', '1'], ['B', 'b', '2'], ['C', 'c', '3']], ['col1', 'col2', 'col3'])
df.show()



+----+----+----+
|col1|col2|col3|
+----+----+----+
|   A|   a|   1|
|   B|   b|   2|
|   C|   c|   3|
+----+----+----+

要將 col1col2col3 列合並到單列數組中,請使用 array(~) 方法:

from pyspark.sql import functions as F
# Assign label to PySpark column returned by array(~) using alias(~)
df.select(F.array('col1','col2','col3').alias('combined_col')).show()



+------------+
|combined_col|
+------------+
|   [A, a, 1]|
|   [B, b, 2]|
|   [C, c, 3]|
+------------+

我們還可以提供 Column 對象,而不是傳遞列標簽:

df.select(F.array(F.col('col1'),df['col2'],'col3').alias('combined_col')).show()



+------------+
|combined_col|
+------------+
|   [A, a, 1]|
|   [B, b, 2]|
|   [C, c, 3]|
+------------+

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark SQL Functions | array method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。