Python pyspark split用法及代碼示例

本文簡要介紹 pyspark.sql.functions.split 的用法。

用法: pyspark.sql.functions.split(str, pattern, limit=- 1)

圍繞給定模式的匹配拆分 str。

1.5.0 版中的新函數。

參數：

str： Column 或 str

要拆分的字符串表達式

pattern：str

表示正則表達式的字符串。正則表達式字符串應該是 Java 正則表達式。

limit：整數，可選

一個整數，它控製應用pattern 的次數。

limit > 0 ：結果數組的長度不會超過 limit ，並且
結果數組的最後一個條目將包含最後一個匹配模式之外的所有輸入。
limit <= 0 : pattern 將被應用盡可能多的次數，結果
數組可以是任意大小。

在 3.0 版中更改：split現在需要一個可選的limit場地。如果未提供，則默認限製值為 -1。

例子：

>>> df = spark.createDataFrame([('oneAtwoBthreeC',)], ['s',])
>>> df.select(split(df.s, '[ABC]', 2).alias('s')).collect()
[Row(s=['one', 'twoBthreeC'])]
>>> df.select(split(df.s, '[ABC]', -1).alias('s')).collect()
[Row(s=['one', 'two', 'three', ''])]

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.functions.split。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。