当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.update用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.update 的用法。

用法:

DataFrame.update(other: pyspark.pandas.frame.DataFrame, join: str = 'left', overwrite: bool = True) → None

使用来自另一个 DataFrame 的非 NA 值进行就地修改。对齐索引。没有返回值。

参数

other DataFrame 或系列
join‘left’,默认 ‘left’

只实现了左连接,保留了原始对象的索引和列。

overwrite布尔值,默认为真

如何处理重叠键的非 NA 值:

  • True:使用来自 other 的值覆盖原始 DataFrame 的值。

  • False:仅更新原始 DataFrame 中为 NA 的值。

返回

None方法直接改变调用对象

例子

>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': [4, 5, 6], 'C': [7, 8, 9]}, columns=['B', 'C'])
>>> df.update(new_df)
>>> df.sort_index()
   A  B
0  1  4
1  2  5
2  3  6

DataFrame 的长度不会因为更新而增加,只会更新匹配索引/列标签处的值。

>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': ['d', 'e', 'f', 'g', 'h', 'i']}, columns=['B'])
>>> df.update(new_df)
>>> df.sort_index()
   A  B
0  a  d
1  b  e
2  c  f

对于 Series,必须设置它的 name 属性。

>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B'])
>>> new_column = ps.Series(['d', 'e'], name='B', index=[0, 2])
>>> df.update(new_column)
>>> df.sort_index()
   A  B
0  a  d
1  b  y
2  c  e

如果 other 包含 None 相应的值不会在原始数据帧中更新。

>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': [4, None, 6]}, columns=['B'])
>>> df.update(new_df)
>>> df.sort_index()
   A      B
0  1    4.0
1  2  500.0
2  3    6.0

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.update。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。