當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark DataFrame intersect方法用法及代碼示例


PySpark DataFrame 的 intersect(~) 方法返回一個新的 PySpark DataFrame,其中包含另一個 PySpark DataFrame 中存在的行。請注意,與 intersectAll(~) 不同,intersect(~) 僅包含一次重複行。

注意

intersect(~) 方法相當於 SQL 中的INTERSECT 語句。

參數

1.other | PySpark 數據幀

與之執行交集的另一個PySpark DataFrame。

返回值

一個新的 PySpark 數據幀。

例子

考慮以下PySpark DataFrame:

df = spark.createDataFrame([("Alex", 20), ("Bob", 30), ("Cathy", 40)], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 30|
|Cathy| 40|
+-----+---+

考慮另一個PySpark DataFrame:

df_other = spark.createDataFrame([("Alex", 20), ("Doge", 30), ("eric", 40)], ["name", "age"])
df_other.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
|Doge| 30|
|eric| 40|
+----+---+

獲取存在於另一個 PySpark DataFrame 中的 PySpark DataFrame 行

要獲取另一個 PySpark DataFrame 中存在的 PySpark DataFrame 行,請使用 intersect(~) 方法,如下所示:

df_intersect = df.intersect(df_other)
df_intersect.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
+----+---+

在這裏,我們得到這一行,因為兩個 PySpark DataFrame 都包含這一行。

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | intersect method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。