Python pyspark DataFrame.update用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame.update 的用法。

用法: DataFrame.update(other: pyspark.pandas.frame.DataFrame, join: str = 'left', overwrite: bool = True) → None

使用来自另一个 DataFrame 的非 NA 值进行就地修改。对齐索引。没有返回值。

参数：

other： DataFrame 或系列

join：‘left’，默认 ‘left’

只实现了左连接，保留了原始对象的索引和列。

overwrite：布尔值，默认为真

如何处理重叠键的非 NA 值：

True：使用来自 other 的值覆盖原始 DataFrame 的值。
False：仅更新原始 DataFrame 中为 NA 的值。

None：方法直接改变调用对象

例子：

>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': [4, 5, 6], 'C': [7, 8, 9]}, columns=['B', 'C'])
>>> df.update(new_df)
>>> df.sort_index()
   A  B
0  1  4
1  2  5
2  3  6

DataFrame 的长度不会因为更新而增加，只会更新匹配索引/列标签处的值。

>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': ['d', 'e', 'f', 'g', 'h', 'i']}, columns=['B'])
>>> df.update(new_df)
>>> df.sort_index()
   A  B
0  a  d
1  b  e
2  c  f

对于 Series，必须设置它的 name 属性。

>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B'])
>>> new_column = ps.Series(['d', 'e'], name='B', index=[0, 2])
>>> df.update(new_column)
>>> df.sort_index()
   A  B
0  a  d
1  b  y
2  c  e

如果 other 包含 None 相应的值不会在原始数据帧中更新。

>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': [4, None, 6]}, columns=['B'])
>>> df.update(new_df)
>>> df.sort_index()
   A      B
0  1    4.0
1  2  500.0
2  3    6.0

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.update。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：