Python pyspark MultiIndex.spark.transform用法及代码示例

本文简要介绍 pyspark.pandas.MultiIndex.spark.transform 的用法。

用法: spark.transform(func: Callable[[pyspark.sql.column.Column], pyspark.sql.column.Column]) → IndexOpsLike

应用一个接受并返回 Spark 列的函数。它允许本地应用 Spark 函数和列 API，其中 Spark 列在 Series 或 Index 中内部使用。 Spark 列的输出长度应与输入的长度相同。

注意

它要求具有相同的输入和输出长度；因此，聚合 Spark 函数(例如 count)不起作用。

参数：

func：函数: 用于使用 Spark 列转换数据的函数。

系列或索引

抛出：

ValueError：如果函数的输出不是 Spark 列。

例子：

>>> from pyspark.sql.functions import log
>>> df = ps.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]}, columns=["a", "b"])
>>> df
   a  b
0  1  4
1  2  5
2  3  6

>>> df.a.spark.transform(lambda c: log(c))
0    0.000000
1    0.693147
2    1.098612
Name: a, dtype: float64

>>> df.index.spark.transform(lambda c: c + 10)
Int64Index([10, 11, 12], dtype='int64')

>>> df.a.spark.transform(lambda c: c + df.b.spark.column)
0    5
1    7
2    9
Name: a, dtype: int64

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.MultiIndex.spark.transform。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

抛出：

例子：