Python pyspark DataFrame.applymap用法及代碼示例

本文簡要介紹 pyspark.pandas.DataFrame.applymap 的用法。

用法: DataFrame.applymap(func: Callable[[Any], Any]) → pyspark.pandas.frame.DataFrame

將函數應用於 Dataframe 元素。

此方法應用一個函數，該函數接受並向 DataFrame 的每個元素返回一個標量。

注意

此 API 執行該函數一次以推斷可能昂貴的類型，例如，在聚合或排序後創建數據集時。

為避免這種情況，請在 func 中指定返回類型，例如，如下所示：

>>> def square(x) -> np.int32:
...     return x ** 2

pandas-on-Spark 使用返回類型提示並且不嘗試推斷類型。

>>> df = ps.DataFrame([[1, 2.12], [3.356, 4.567]])
>>> df
       0      1
0  1.000  2.120
1  3.356  4.567

>>> def str_len(x) -> int:
...     return len(str(x))
>>> df.applymap(str_len)
   0  1
0  3  4
1  5  5

>>> def power(x) -> float:
...     return x ** 2
>>> df.applymap(power)
           0          1
0   1.000000   4.494400
1  11.262736  20.857489

您可以省略類型提示並讓pandas-on-Spark 推斷其類型。

>>> df.applymap(lambda x: x ** 2)
           0          1
0   1.000000   4.494400
1  11.262736  20.857489

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.applymap。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。