當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark split用法及代碼示例


本文簡要介紹 pyspark.sql.functions.split 的用法。

用法:

pyspark.sql.functions.split(str, pattern, limit=- 1)

圍繞給定模式的匹配拆分 str。

1.5.0 版中的新函數。

參數

str Column 或 str

要拆分的字符串表達式

patternstr

表示正則表達式的字符串。正則表達式字符串應該是 Java 正則表達式。

limit整數,可選

一個整數,它控製應用pattern 的次數。

  • limit > 0 :結果數組的長度不會超過 limit ,並且

    結果數組的最後一個條目將包含最後一個匹配模式之外的所有輸入。

  • limit <= 0 : pattern 將被應用盡可能多的次數,結果

    數組可以是任意大小。

在 3.0 版中更改:split現在需要一個可選的limit場地。如果未提供,則默認限製值為 -1。

例子

>>> df = spark.createDataFrame([('oneAtwoBthreeC',)], ['s',])
>>> df.select(split(df.s, '[ABC]', 2).alias('s')).collect()
[Row(s=['one', 'twoBthreeC'])]
>>> df.select(split(df.s, '[ABC]', -1).alias('s')).collect()
[Row(s=['one', 'two', 'three', ''])]

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.functions.split。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。