当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.diff用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.diff 的用法。

用法:

DataFrame.diff(periods: int = 1, axis: Union[int, str] = 0) → pyspark.pandas.frame.DataFrame

元素的第一个离散差。

计算 DataFrame 元素与 DataFrame 中另一个元素的差异(默认为上一行同一列中的元素)。

注意

diff 的当前实现使用 Spark 的 Window 而不指定分区规范。这会导致将所有数据移动到单个机器中的单个分区中,并可能导致严重的性能下降。避免对非常大的数据集使用此方法。

参数

periods整数,默认 1

用于计算差异的周期,接受负值。

axisint,默认 0 或 ‘index’

目前只能设置为0。

返回

diffedDataFrame

例子

>>> df = ps.DataFrame({'a': [1, 2, 3, 4, 5, 6],
...                    'b': [1, 1, 2, 3, 5, 8],
...                    'c': [1, 4, 9, 16, 25, 36]}, columns=['a', 'b', 'c'])
>>> df
   a  b   c
0  1  1   1
1  2  1   4
2  3  2   9
3  4  3  16
4  5  5  25
5  6  8  36
>>> df.diff()
     a    b     c
0  NaN  NaN   NaN
1  1.0  0.0   3.0
2  1.0  1.0   5.0
3  1.0  1.0   7.0
4  1.0  2.0   9.0
5  1.0  3.0  11.0

与上一栏的区别

>>> df.diff(periods=3)
     a    b     c
0  NaN  NaN   NaN
1  NaN  NaN   NaN
2  NaN  NaN   NaN
3  3.0  2.0  15.0
4  3.0  4.0  21.0
5  3.0  6.0  27.0

与下一行的区别

>>> df.diff(periods=-1)
     a    b     c
0 -1.0  0.0  -3.0
1 -1.0 -1.0  -5.0
2 -1.0 -1.0  -7.0
3 -1.0 -2.0  -9.0
4 -1.0 -3.0 -11.0
5  NaN  NaN   NaN

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.diff。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。