當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark Series.map用法及代碼示例


本文簡要介紹 pyspark.pandas.Series.map 的用法。

用法:

Series.map(arg: Union[Dict, Callable]) → pyspark.pandas.series.Series

根據輸入對應關係映射 Series 的值。

用於將 Series 中的每個值替換為另一個值,該值可能源自函數 dict

注意

確保字典的大小不會很大,因為它可能會降低性能或由於 Spark 中的巨大表達式而拋出 OutOfMemoryError。在這種情況下,請將輸入視為函數作為替代方案。

參數

arg函數或字典

映射對應。

返回

Series

與調用者相同的索引。

注意

arg 是字典時, Series 中不在字典中的值(作為鍵)將轉換為 None 。但是,如果字典是定義 __missing__dict 子類(即提供默認值的方法),則使用此默認值而不是 None

例子

>>> s = ps.Series(['cat', 'dog', None, 'rabbit'])
>>> s
0       cat
1       dog
2      None
3    rabbit
dtype: object

map 接受 dict 。在 dict 中找不到的值將轉換為 None ,除非字典具有默認值(例如 defaultdict ):

>>> s.map({'cat': 'kitten', 'dog': 'puppy'})
0    kitten
1     puppy
2      None
3      None
dtype: object

它還接受一個函數:

>>> def format(x) -> str:
...     return 'I am a {}'.format(x)
>>> s.map(format)
0       I am a cat
1       I am a dog
2      I am a None
3    I am a rabbit
dtype: object

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.Series.map。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。