当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark Series.map用法及代码示例


本文简要介绍 pyspark.pandas.Series.map 的用法。

用法:

Series.map(arg: Union[Dict, Callable]) → pyspark.pandas.series.Series

根据输入对应关系映射 Series 的值。

用于将 Series 中的每个值替换为另一个值,该值可能源自函数 dict

注意

确保字典的大小不会很大,因为它可能会降低性能或由于 Spark 中的巨大表达式而抛出 OutOfMemoryError。在这种情况下,请将输入视为函数作为替代方案。

参数

arg函数或字典

映射对应。

返回

Series

与调用者相同的索引。

注意

arg 是字典时, Series 中不在字典中的值(作为键)将转换为 None 。但是,如果字典是定义 __missing__dict 子类(即提供默认值的方法),则使用此默认值而不是 None

例子

>>> s = ps.Series(['cat', 'dog', None, 'rabbit'])
>>> s
0       cat
1       dog
2      None
3    rabbit
dtype: object

map 接受 dict 。在 dict 中找不到的值将转换为 None ,除非字典具有默认值(例如 defaultdict ):

>>> s.map({'cat': 'kitten', 'dog': 'puppy'})
0    kitten
1     puppy
2      None
3      None
dtype: object

它还接受一个函数:

>>> def format(x) -> str:
...     return 'I am a {}'.format(x)
>>> s.map(format)
0       I am a cat
1       I am a dog
2      I am a None
3    I am a rabbit
dtype: object

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.map。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。