当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark Series.compare用法及代码示例


本文简要介绍 pyspark.pandas.Series.compare 的用法。

用法:

Series.compare(other: pyspark.pandas.series.Series, keep_shape: bool = False, keep_equal: bool = False) → pyspark.pandas.frame.DataFrame

与另一个系列进行比较并显示差异。

参数

otherSeries

要比较的对象。

keep_shape布尔值,默认为 False

如果为真,则保留所有行和列。否则,仅保留具有不同值的那些。

keep_equal布尔值,默认为 False

如果为真,则结果保持相等的值。否则,相等的值显示为 NaN。

返回

DataFrame

注意

匹配 NaNs 不会显示为差异。

例子

>>> from pyspark.pandas.config import set_option, reset_option
>>> set_option("compute.ops_on_diff_frames", True)
>>> s1 = ps.Series(["a", "b", "c", "d", "e"])
>>> s2 = ps.Series(["a", "a", "c", "b", "e"])

对齐列上的差异

>>> s1.compare(s2).sort_index()
  self other
1    b     a
3    d     b

保留所有原始行

>>> s1.compare(s2, keep_shape=True).sort_index()
   self other
0  None  None
1     b     a
2  None  None
3     d     b
4  None  None

保留所有原始行以及所有原始值

>>> s1.compare(s2, keep_shape=True, keep_equal=True).sort_index()
  self other
0    a     a
1    b     a
2    c     c
3    d     b
4    e     e
>>> reset_option("compute.ops_on_diff_frames")

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.compare。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。