當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark DataFrame colRegex方法用法及代碼示例


PySpark DataFrame 的 colRegex(~) 方法返回一個 Column 對象,其標簽與指定的正則表達式匹配。此方法還允許選擇多個列。

參數

1. colName | string

匹配列標簽的正則表達式。

返回值

PySpark 專欄。

例子

在PySpark中使用正則表達式選擇列

考慮以下PySpark DataFrame:

df = spark.createDataFrame([("Alex", 20), ("Bob", 30), ("Cathy", 40)], ["col1", "col2"])
df.show()



+-----+----+
| col1|col2|
+-----+----+
| Alex|  20|
|  Bob|  30|
|Cathy|  40|
+-----+----+

要使用正則表達式選擇列,請使用colRegex(~)方法:

df.select(df.colRegex("`col[123]`")).show()



+-----+----+
| col1|col2|
+-----+----+
| Alex|  20|
|  Bob|  30|
|Cathy|  40|
+-----+----+

在此,請注意以下事項:

  • 我們使用反引號 ` 包裝列標簽 - 這是必需的,否則 PySpark 將引發錯誤。

  • 正則表達式 col[123] 與帶有標簽 col1col2col3 的列匹配。

  • select(~) 方法用於將Column 對象轉換為PySpark DataFrame。

獲取與正則表達式匹配的列標簽作為 PySpark 中的字符串列表

要將列標簽作為字符串列表而不是 PySpark Column 對象獲取:

df.select(df.colRegex("`col[123]`")).columns



['col1', 'col2']

在這裏,我們使用 select(~) 返回的 PySpark DataFrame 的 columns 屬性。

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | colRegex method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。