当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark DataFrame intersect方法用法及代码示例


PySpark DataFrame 的 intersect(~) 方法返回一个新的 PySpark DataFrame,其中包含另一个 PySpark DataFrame 中存在的行。请注意,与 intersectAll(~) 不同,intersect(~) 仅包含一次重复行。

注意

intersect(~) 方法相当于 SQL 中的INTERSECT 语句。

参数

1.other | PySpark 数据帧

与之执行交集的另一个PySpark DataFrame。

返回值

一个新的 PySpark 数据帧。

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([("Alex", 20), ("Bob", 30), ("Cathy", 40)], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 30|
|Cathy| 40|
+-----+---+

考虑另一个PySpark DataFrame:

df_other = spark.createDataFrame([("Alex", 20), ("Doge", 30), ("eric", 40)], ["name", "age"])
df_other.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
|Doge| 30|
|eric| 40|
+----+---+

获取存在于另一个 PySpark DataFrame 中的 PySpark DataFrame 行

要获取另一个 PySpark DataFrame 中存在的 PySpark DataFrame 行,请使用 intersect(~) 方法,如下所示:

df_intersect = df.intersect(df_other)
df_intersect.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
+----+---+

在这里,我们得到这一行,因为两个 PySpark DataFrame 都包含这一行。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | intersect method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。