Python pyspark DataFrame.update用法及代碼示例

本文簡要介紹 pyspark.pandas.DataFrame.update 的用法。

用法: DataFrame.update(other: pyspark.pandas.frame.DataFrame, join: str = 'left', overwrite: bool = True) → None

使用來自另一個 DataFrame 的非 NA 值進行就地修改。對齊索引。沒有返回值。

參數：

other： DataFrame 或係列

join：‘left’，默認 ‘left’

隻實現了左連接，保留了原始對象的索引和列。

overwrite：布爾值，默認為真

如何處理重疊鍵的非 NA 值：

True：使用來自 other 的值覆蓋原始 DataFrame 的值。
False：僅更新原始 DataFrame 中為 NA 的值。

None：方法直接改變調用對象

例子：

>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': [4, 5, 6], 'C': [7, 8, 9]}, columns=['B', 'C'])
>>> df.update(new_df)
>>> df.sort_index()
   A  B
0  1  4
1  2  5
2  3  6

DataFrame 的長度不會因為更新而增加，隻會更新匹配索引/列標簽處的值。

>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': ['d', 'e', 'f', 'g', 'h', 'i']}, columns=['B'])
>>> df.update(new_df)
>>> df.sort_index()
   A  B
0  a  d
1  b  e
2  c  f

對於 Series，必須設置它的 name 屬性。

>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B'])
>>> new_column = ps.Series(['d', 'e'], name='B', index=[0, 2])
>>> df.update(new_column)
>>> df.sort_index()
   A  B
0  a  d
1  b  y
2  c  e

如果 other 包含 None 相應的值不會在原始數據幀中更新。

>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B'])
>>> new_df = ps.DataFrame({'B': [4, None, 6]}, columns=['B'])
>>> df.update(new_df)
>>> df.sort_index()
   A      B
0  1    4.0
1  2  500.0
2  3    6.0

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.update。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：