当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark Series.spark.apply用法及代码示例


本文简要介绍 pyspark.pandas.Series.spark.apply 的用法。

用法:

spark.apply(func: Callable[[pyspark.sql.column.Column], pyspark.sql.column.Column]) → ps.Series

应用一个接受并返回 Spark 列的函数。它允许本地应用 Spark 函数和列 API,其中 Spark 列在 Series 或 Index 中内部使用。

注意

它强制丢失索引并最终使用默认索引。最好使用 Series.spark.transform():meth:`DataFrame.spark.apply 并指定 inedx_col

注意

它不要求输入和输出具有相同的长度。然而,它需要在内部创建一个新的DataFrame,这将需要设置compute.ops_on_diff_frames来计算,即使具有相同的起源DataFrame,这是昂贵的,而Series.spark.transform()不需要它。

参数

func函数

使用 Spark 列对数据应用函数的函数。

返回

Series

抛出

ValueError如果函数的输出不是 Spark 列。

例子

>>> from pyspark import pandas as ps
>>> from pyspark.sql.functions import count, lit
>>> df = ps.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]}, columns=["a", "b"])
>>> df
   a  b
0  1  4
1  2  5
2  3  6
>>> df.a.spark.apply(lambda c: count(c))
0    3
Name: a, dtype: int64
>>> df.a.spark.apply(lambda c: c + df.b.spark.column)
0    5
1    7
2    9
Name: a, dtype: int64

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.spark.apply。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。