Python PySpark SQL Functions trim方法用法及代码示例

PySpark SQL 函数的 trim(~) 方法返回一个新的 PySpark 列，其中字符串值被修剪，即删除了前导和尾随空格。

参数

1. col | string

要修剪的 string 类型的列。

返回值

新的 PySpark 列。

例子

考虑以下PySpark DataFrame：

df = spark.createDataFrame([["  Alex  ", 20], ["  Bob", 30], ["Cathy    ", 40]], ["name", "age"])
df.show()



+---------+---+
|     name|age|
+---------+---+
|   Alex  | 20|
|      Bob| 30|
|Cathy    | 40|
+---------+---+

此处，name 列中的值具有前导空格和尾随空格。

修剪PySpark中的列

修剪 name 列，即删除前导和尾随空格：

import pyspark.sql.functions as F
df.select(F.trim("name").alias("trimmed_name")).show()



+------------+
|trimmed_name|
+------------+
|        Alex|
|         Bob|
|       Cathy|
+------------+

这里， alias(~) 方法用于为 trim(~) 返回的 Column 分配标签。

要获取原始 PySpark DataFrame，但使用修剪后的版本更新 name 列，请使用 withColumn(~) 方法：

df.withColumn("name", F.trim("name").alias("trimmed_name")).show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 30|
|Cathy| 40|
+-----+---+

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark SQL Functions | trim method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。