Python pyspark Series.backfill用法及代码示例

本文简要介绍 pyspark.pandas.Series.backfill 的用法。

用法: Series.backfill(axis: Union[int, str, None] = None, inplace: bool = False, limit: Optional[int] = None) → FrameLike

DataFrame.fillna() 或 Series.fillna() 与 method=`bfill` 的同义词。

注意

‘bfill’ 的当前实现使用 Spark 的 Window 而不指定分区规范。这会导致将所有数据移动到单个机器中的单个分区中，并可能导致严重的性能下降。避免对非常大的数据集使用此方法。

参数：

axis：{0 或 index }: 不支持 1 和 columns。
inplace：布尔值，默认为 False: 就地填充(不创建新对象)
limit：整数，默认无: 如果指定了方法，则这是要向前/向后填充的连续 NaN 值的最大数量。换句话说，如果存在连续 NaN 数量超过此数量的间隙，则只会部分填充。如果未指定方法，则这是沿整个轴填充 NaNs 的最大条目数。如果不是 None 则必须大于 0

DataFrame 或系列: DataFrame 或填充了 NA 条目的系列。

例子：

>>> psdf = ps.DataFrame({
...     'A': [None, 3, None, None],
...     'B': [2, 4, None, 3],
...     'C': [None, None, None, 1],
...     'D': [0, 1, 5, 4]
...     },
...     columns=['A', 'B', 'C', 'D'])
>>> psdf
     A    B    C  D
0  NaN  2.0  NaN  0
1  3.0  4.0  NaN  1
2  NaN  NaN  NaN  5
3  NaN  3.0  1.0  4

向后传播非空值。

>>> psdf.bfill()
     A    B    C  D
0  3.0  2.0  1.0  0
1  3.0  4.0  1.0  1
2  NaN  3.0  1.0  5
3  NaN  3.0  1.0  4

对于系列

>>> psser = ps.Series([None, None, None, 1])
>>> psser
0    NaN
1    NaN
2    NaN
3    1.0
dtype: float64

>>> psser.bfill()
0    1.0
1    1.0
2    1.0
3    1.0
dtype: float64

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.backfill。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：