Python pyspark GroupBy.diff用法及代碼示例

本文簡要介紹 pyspark.pandas.groupby.GroupBy.diff 的用法。

用法: GroupBy.diff(periods: int = 1) → FrameLike

元素的第一個離散差。

計算 DataFrame 元素與 DataFrame 組中另一個元素的差異(默認為上一行同一列中的元素)。

參數：

periods：整數，默認 1: 用於計算差異的周期，接受負值。

diffed：DataFrame 或係列

例子：

>>> df = ps.DataFrame({'a': [1, 2, 3, 4, 5, 6],
...                    'b': [1, 1, 2, 3, 5, 8],
...                    'c': [1, 4, 9, 16, 25, 36]}, columns=['a', 'b', 'c'])
>>> df
   a  b   c
0  1  1   1
1  2  1   4
2  3  2   9
3  4  3  16
4  5  5  25
5  6  8  36

>>> df.groupby(['b']).diff().sort_index()
     a    c
0  NaN  NaN
1  1.0  3.0
2  NaN  NaN
3  NaN  NaN
4  NaN  NaN
5  NaN  NaN

與組中上一列的差異。

>>> df.groupby(['b'])['a'].diff().sort_index()
0    NaN
1    1.0
2    NaN
3    NaN
4    NaN
5    NaN
Name: a, dtype: float64

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.groupby.GroupBy.diff。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：