Python PySpark DataFrame intersect方法用法及代码示例

PySpark DataFrame 的 intersect(~) 方法返回一个新的 PySpark DataFrame，其中包含另一个 PySpark DataFrame 中存在的行。请注意，与 intersectAll(~) 不同，intersect(~) 仅包含一次重复行。

注意

intersect(~) 方法相当于 SQL 中的INTERSECT 语句。

参数

1.other | PySpark 数据帧

与之执行交集的另一个PySpark DataFrame。

返回值

一个新的 PySpark 数据帧。

例子

考虑以下PySpark DataFrame：

df = spark.createDataFrame([("Alex", 20), ("Bob", 30), ("Cathy", 40)], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 30|
|Cathy| 40|
+-----+---+

考虑另一个PySpark DataFrame：

df_other = spark.createDataFrame([("Alex", 20), ("Doge", 30), ("eric", 40)], ["name", "age"])
df_other.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
|Doge| 30|
|eric| 40|
+----+---+

获取存在于另一个 PySpark DataFrame 中的 PySpark DataFrame 行

要获取另一个 PySpark DataFrame 中存在的 PySpark DataFrame 行，请使用 intersect(~) 方法，如下所示：

df_intersect = df.intersect(df_other)
df_intersect.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
+----+---+

在这里，我们得到这一行，因为两个 PySpark DataFrame 都包含这一行。

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | intersect method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。