当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark SQL Functions trim方法用法及代码示例


PySpark SQL 函数的 trim(~) 方法返回一个新的 PySpark 列,其中字符串值被修剪,即删除了前导和尾随空格。

参数

1. col | string

要修剪的 string 类型的列。

返回值

新的 PySpark 列。

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([["  Alex  ", 20], ["  Bob", 30], ["Cathy    ", 40]], ["name", "age"])
df.show()



+---------+---+
|     name|age|
+---------+---+
|   Alex  | 20|
|      Bob| 30|
|Cathy    | 40|
+---------+---+

此处,name 列中的值具有前导空格和尾随空格。

修剪PySpark中的列

修剪 name 列,即删除前导和尾随空格:

import pyspark.sql.functions as F
df.select(F.trim("name").alias("trimmed_name")).show()



+------------+
|trimmed_name|
+------------+
|        Alex|
|         Bob|
|       Cathy|
+------------+

这里, alias(~) 方法用于为 trim(~) 返回的 Column 分配标签。

要获取原始 PySpark DataFrame,但使用修剪后的版本更新 name 列,请使用 withColumn(~) 方法:

df.withColumn("name", F.trim("name").alias("trimmed_name")).show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 30|
|Cathy| 40|
+-----+---+

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark SQL Functions | trim method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。