PySpark DataFrame 的 colRegex(~)
方法返回一個 Column
對象,其標簽與指定的正則表達式匹配。此方法還允許選擇多個列。
參數
1. colName
| string
匹配列標簽的正則表達式。
返回值
PySpark 專欄。
例子
在PySpark中使用正則表達式選擇列
考慮以下PySpark DataFrame:
df = spark.createDataFrame([("Alex", 20), ("Bob", 30), ("Cathy", 40)], ["col1", "col2"])
df.show()
+-----+----+
| col1|col2|
+-----+----+
| Alex| 20|
| Bob| 30|
|Cathy| 40|
+-----+----+
要使用正則表達式選擇列,請使用colRegex(~)
方法:
df.select(df.colRegex("`col[123]`")).show()
+-----+----+
| col1|col2|
+-----+----+
| Alex| 20|
| Bob| 30|
|Cathy| 40|
+-----+----+
在此,請注意以下事項:
-
我們使用反引號
`
包裝列標簽 - 這是必需的,否則 PySpark 將引發錯誤。 -
正則表達式
col[123]
與帶有標簽col1
、col2
或col3
的列匹配。 -
select(~)
方法用於將Column
對象轉換為PySpark DataFrame。
獲取與正則表達式匹配的列標簽作為 PySpark 中的字符串列表
要將列標簽作為字符串列表而不是 PySpark Column
對象獲取:
df.select(df.colRegex("`col[123]`")).columns
['col1', 'col2']
相關用法
- Python PySpark DataFrame collect方法用法及代碼示例
- Python Pandas DataFrame columns屬性用法及代碼示例
- Python PySpark DataFrame columns屬性用法及代碼示例
- Python Pandas DataFrame copy方法用法及代碼示例
- Python PySpark DataFrame coalesce方法用法及代碼示例
- Python Pandas DataFrame corrwith方法用法及代碼示例
- Python PySpark DataFrame corr方法用法及代碼示例
- Python Pandas DataFrame convert_dtypes方法用法及代碼示例
- Python Pandas DataFrame combine方法用法及代碼示例
- Python PySpark DataFrame cov方法用法及代碼示例
- Python Pandas DataFrame count方法用法及代碼示例
- Python PySpark DataFrame count方法用法及代碼示例
- Python Pandas DataFrame corr方法用法及代碼示例
- Python Pandas DataFrame combine_first方法用法及代碼示例
- Python Pandas DataFrame cov方法用法及代碼示例
- Python Pandas DataFrame clip方法用法及代碼示例
- Python Pandas DataFrame cummax方法用法及代碼示例
- Python Pandas DataFrame cumprod方法用法及代碼示例
- Python Pandas DataFrame cummin方法用法及代碼示例
- Python Pandas DataFrame cumsum方法用法及代碼示例
- Python Pandas DataFrame empty屬性用法及代碼示例
- Python Pandas DataFrame pop方法用法及代碼示例
- Python Pandas DataFrame nsmallest方法用法及代碼示例
- Python Pandas DataFrame sample方法用法及代碼示例
- Python Pandas DataFrame items方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | colRegex method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。