Python pyspark DataFrame.pandas_on_spark.apply_batch用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame.pandas_on_spark.apply_batch 的用法。

用法:
pandas_on_spark.apply_batch(func: Callable[[…], pandas.core.frame.DataFrame], args: Tuple =(), **kwds: Any) → DataFrame

应用一个接受 pandas DataFrame 并输出 pandas DataFrame 的函数。提供给该函数的 pandas DataFrame 是内部使用的批处理。

另见Transform and apply a function。

注意

func 无法访问整个输入帧。 pandas-on-Spark 在内部将输入系列拆分为多个批次，并在每个批次中多次调用 func。因此，诸如全局聚合之类的操作是不可能的。请参见下面的示例。

>>> # This case does not return the length of whole frame but of the batch internally
... # used.
... def length(pdf) -> ps.DataFrame[int]:
...     return pd.DataFrame([len(pdf)])
...
>>> df = ps.DataFrame({'A': range(1000)})
>>> df.pandas_on_spark.apply_batch(length)  
    c0
0   83
1   83
2   83
...
10  83
11  83

注意

此 API 执行该函数一次以推断可能昂贵的类型，例如，在聚合或排序后创建数据集时。

为避免这种情况，请在 func 中指定返回类型，例如，如下所示：

>>> def plus_one(x) -> ps.DataFrame[float, float]:
...     return x + 1

如果指定返回类型，则输出列名称变为 c0, c1, c2 … cn 。这些名称按位置映射到 func 中返回的 DataFrame 。

要指定列名，您可以使用 pandas 友好的样式指定它们，如下所示：

>>> def plus_one(x) -> ps.DataFrame["a": float, "b": float]:
...     return x + 1

>>> pdf = pd.DataFrame({'a': [1, 2, 3], 'b': [3, 4, 5]})
>>> def plus_one(x) -> ps.DataFrame[zip(pdf.dtypes, pdf.columns)]:
...     return x + 1

当给定函数注释了返回类型时，DataFrame 的原始索引将丢失，并且默认索引将附加到结果 DataFrame。请谨慎配置默认索引。另请参阅Default Index Type。

参数：

func：函数: 应用于每个 pandas 框架的函数。
args：元组: 除了数组/系列之外，要传递给 func 的位置参数。
**kwds：: 附加关键字参数作为关键字参数传递给 func 。

DataFrame

例子：

>>> df = ps.DataFrame([(1, 2), (3, 4), (5, 6)], columns=['A', 'B'])
>>> df
   A  B
0  1  2
1  3  4
2  5  6

>>> def query_func(pdf) -> ps.DataFrame[int, int]:
...     return pdf.query('A == 1')
>>> df.pandas_on_spark.apply_batch(query_func)
   c0  c1
0   1   2

>>> def query_func(pdf) -> ps.DataFrame["A": int, "B": int]:
...     return pdf.query('A == 1')
>>> df.pandas_on_spark.apply_batch(query_func)
   A  B
0  1  2

您也可以省略类型提示，以便 pandas-on-Spark 推断返回模式如下：

>>> df.pandas_on_spark.apply_batch(lambda pdf: pdf.query('A == 1'))
   A  B
0  1  2

您还可以指定额外的参数。

>>> def calculation(pdf, y, z) -> ps.DataFrame[int, int]:
...     return pdf ** y + z
>>> df.pandas_on_spark.apply_batch(calculation, args=(10,), z=20)
        c0        c1
0       21      1044
1    59069   1048596
2  9765645  60466196

您还可以使用np.ufunc 和内置函数作为输入。

>>> df.pandas_on_spark.apply_batch(np.add, args=(10,))
    A   B
0  11  12
1  13  14
2  15  16

>>> (df * -1).pandas_on_spark.apply_batch(abs)
   A  B
0  1  2
1  3  4
2  5  6

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.pandas_on_spark.apply_batch。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：