Python PySpark SQL Functions concat_ws方法用法及代码示例

PySpark SQL 函数的concat_ws(~) 方法使用指定的分隔符将string-typed 列连接成单个列。

参数

1. sep | string

连接列时使用的分隔符。

2. *cols | Column 对象

要连接的基于字符串的列。如果列的类型不是字符串，则将执行自动转换。如果转换失败，则会抛出错误。

返回值

PySpark SQL Column 对象 ( pyspark.sql.column.Column )。

例子

考虑以下PySpark DataFrame：

df = spark.createDataFrame([("a", "b"), ("c", "d"), ("e", "f")], ["ONE", "TWO"])
df.show()



+---+---+
|ONE|TWO|
+---+---+
|  a|  b|
|  c|  d|
|  e|  f|
+---+---+

连接 PySpark 中的多个字符串列

要创建一个组合了两个 string-typed 列的新 PySpark DataFrame：

import pyspark.sql.functions as F
df.select(F.concat_ws("-", df.ONE, df.TWO).alias("NEW")).show()



+---+
|NEW|
+---+
|a-b|
|c-d|
|e-f|
+---+

在这里，我们使用 Column 对象的 alias(~) 函数来提供新组合列的名称。

请注意，我们可以一次组合两列以上：

df.select(F.concat_ws("-", df.ONE, df.TWO, df.ONE).alias("NEW")).show()



+-----+
|  NEW|
+-----+
|a-b-a|
|c-d-c|
|e-f-e|
+-----+

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark SQL Functions | concat_ws method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。