Python PySpark DataFrame intersect方法用法及代碼示例

PySpark DataFrame 的 intersect(~) 方法返回一個新的 PySpark DataFrame，其中包含另一個 PySpark DataFrame 中存在的行。請注意，與 intersectAll(~) 不同，intersect(~) 僅包含一次重複行。

注意

intersect(~) 方法相當於 SQL 中的INTERSECT 語句。

參數

1.other | PySpark 數據幀

與之執行交集的另一個PySpark DataFrame。

返回值

一個新的 PySpark 數據幀。

例子

考慮以下PySpark DataFrame：

df = spark.createDataFrame([("Alex", 20), ("Bob", 30), ("Cathy", 40)], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 30|
|Cathy| 40|
+-----+---+

考慮另一個PySpark DataFrame：

df_other = spark.createDataFrame([("Alex", 20), ("Doge", 30), ("eric", 40)], ["name", "age"])
df_other.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
|Doge| 30|
|eric| 40|
+----+---+

獲取存在於另一個 PySpark DataFrame 中的 PySpark DataFrame 行

要獲取另一個 PySpark DataFrame 中存在的 PySpark DataFrame 行，請使用 intersect(~) 方法，如下所示：

df_intersect = df.intersect(df_other)
df_intersect.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
+----+---+

在這裏，我們得到這一行，因為兩個 PySpark DataFrame 都包含這一行。

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | intersect method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。