Python pyspark Series.diff用法及代码示例

本文简要介绍 pyspark.pandas.Series.diff 的用法。

用法: Series.diff(periods: int = 1) → pyspark.pandas.series.Series

元素的第一个离散差。

计算Series元素与DataFrame中另一个元素的差异(默认为前一行同一列中的元素)。

注意

diff 的当前实现使用 Spark 的 Window 而不指定分区规范。这会导致将所有数据移动到单个机器中的单个分区中，并可能导致严重的性能下降。避免对非常大的数据集使用此方法。

参数：

periods：整数，默认 1: 用于计算差异的周期，接受负值。

diffed：Series

例子：

>>> df = ps.DataFrame({'a': [1, 2, 3, 4, 5, 6],
...                    'b': [1, 1, 2, 3, 5, 8],
...                    'c': [1, 4, 9, 16, 25, 36]}, columns=['a', 'b', 'c'])
>>> df
   a  b   c
0  1  1   1
1  2  1   4
2  3  2   9
3  4  3  16
4  5  5  25
5  6  8  36

>>> df.b.diff()
0    NaN
1    0.0
2    1.0
3    1.0
4    2.0
5    3.0
Name: b, dtype: float64

与先前值的差异

>>> df.c.diff(periods=3)
0     NaN
1     NaN
2     NaN
3    15.0
4    21.0
5    27.0
Name: c, dtype: float64

与以下值的差异

>>> df.c.diff(periods=-1)
0    -3.0
1    -5.0
2    -7.0
3    -9.0
4   -11.0
5     NaN
Name: c, dtype: float64

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.diff。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：