当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark GroupedData.apply用法及代码示例


本文简要介绍 pyspark.sql.GroupedData.apply 的用法。

用法:

GroupedData.apply(udf)

它是 pyspark.sql.GroupedData.applyInPandas() 的别名;但是,它需要 pyspark.sql.functions.pandas_udf() pyspark.sql.GroupedData.applyInPandas() 需要 Python 本机函数。

2.3.0 版中的新函数。

参数

udfpandas_udf

pyspark.sql.functions.pandas_udf() 返回的分组Map用户定义函数。

注意

最好在此 API 上使用 pyspark.sql.GroupedData.applyInPandas() 。此 API 将在未来的版本中弃用。

例子

>>> from pyspark.sql.functions import pandas_udf, PandasUDFType
>>> df = spark.createDataFrame(
...     [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
...     ("id", "v"))
>>> @pandas_udf("id long, v double", PandasUDFType.GROUPED_MAP)  
... def normalize(pdf):
...     v = pdf.v
...     return pdf.assign(v=(v - v.mean()) / v.std())
>>> df.groupby("id").apply(normalize).show()  
+---+-------------------+
| id|                  v|
+---+-------------------+
|  1|-0.7071067811865475|
|  1| 0.7071067811865475|
|  2|-0.8320502943378437|
|  2|-0.2773500981126146|
|  2| 1.1094003924504583|
+---+-------------------+

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.GroupedData.apply。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。