本文简要介绍
pyspark.pandas.Series.diff
的用法。用法:
Series.diff(periods: int = 1) → pyspark.pandas.series.Series
元素的第一个离散差。
计算Series元素与DataFrame中另一个元素的差异(默认为前一行同一列中的元素)。
注意
diff 的当前实现使用 Spark 的 Window 而不指定分区规范。这会导致将所有数据移动到单个机器中的单个分区中,并可能导致严重的性能下降。避免对非常大的数据集使用此方法。
- periods:整数,默认 1
用于计算差异的周期,接受负值。
- diffed:Series
参数:
返回:
例子:
>>> df = ps.DataFrame({'a': [1, 2, 3, 4, 5, 6], ... 'b': [1, 1, 2, 3, 5, 8], ... 'c': [1, 4, 9, 16, 25, 36]}, columns=['a', 'b', 'c']) >>> df a b c 0 1 1 1 1 2 1 4 2 3 2 9 3 4 3 16 4 5 5 25 5 6 8 36
>>> df.b.diff() 0 NaN 1 0.0 2 1.0 3 1.0 4 2.0 5 3.0 Name: b, dtype: float64
与先前值的差异
>>> df.c.diff(periods=3) 0 NaN 1 NaN 2 NaN 3 15.0 4 21.0 5 27.0 Name: c, dtype: float64
与以下值的差异
>>> df.c.diff(periods=-1) 0 -3.0 1 -5.0 2 -7.0 3 -9.0 4 -11.0 5 NaN Name: c, dtype: float64
相关用法
- Python pyspark Series.div用法及代码示例
- Python pyspark Series.dt.is_quarter_end用法及代码示例
- Python pyspark Series.dropna用法及代码示例
- Python pyspark Series.dt.is_month_end用法及代码示例
- Python pyspark Series.describe用法及代码示例
- Python pyspark Series.dt.floor用法及代码示例
- Python pyspark Series.dt.is_quarter_start用法及代码示例
- Python pyspark Series.dt.day_name用法及代码示例
- Python pyspark Series.dt.dayofweek用法及代码示例
- Python pyspark Series.dtype用法及代码示例
- Python pyspark Series.dt.ceil用法及代码示例
- Python pyspark Series.drop用法及代码示例
- Python pyspark Series.dt.strftime用法及代码示例
- Python pyspark Series.dot用法及代码示例
- Python pyspark Series.dtypes用法及代码示例
- Python pyspark Series.drop_duplicates用法及代码示例
- Python pyspark Series.dt.is_leap_year用法及代码示例
- Python pyspark Series.dt.is_year_start用法及代码示例
- Python pyspark Series.dt.month_name用法及代码示例
- Python pyspark Series.dt.round用法及代码示例
- Python pyspark Series.droplevel用法及代码示例
- Python pyspark Series.dt.is_year_end用法及代码示例
- Python pyspark Series.dt.weekday用法及代码示例
- Python pyspark Series.dt.normalize用法及代码示例
- Python pyspark Series.dt.is_month_start用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.diff。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。