本文简要介绍
pyspark.pandas.DataFrame.update
的用法。用法:
DataFrame.update(other: pyspark.pandas.frame.DataFrame, join: str = 'left', overwrite: bool = True) → None
使用来自另一个 DataFrame 的非 NA 值进行就地修改。对齐索引。没有返回值。
- other: DataFrame 或系列
- join:‘left’,默认 ‘left’
只实现了左连接,保留了原始对象的索引和列。
- overwrite:布尔值,默认为真
如何处理重叠键的非 NA 值:
True:使用来自
other
的值覆盖原始 DataFrame 的值。False:仅更新原始 DataFrame 中为 NA 的值。
- None:方法直接改变调用对象
参数:
返回:
例子:
>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B']) >>> new_df = ps.DataFrame({'B': [4, 5, 6], 'C': [7, 8, 9]}, columns=['B', 'C']) >>> df.update(new_df) >>> df.sort_index() A B 0 1 4 1 2 5 2 3 6
DataFrame 的长度不会因为更新而增加,只会更新匹配索引/列标签处的值。
>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B']) >>> new_df = ps.DataFrame({'B': ['d', 'e', 'f', 'g', 'h', 'i']}, columns=['B']) >>> df.update(new_df) >>> df.sort_index() A B 0 a d 1 b e 2 c f
对于 Series,必须设置它的 name 属性。
>>> df = ps.DataFrame({'A': ['a', 'b', 'c'], 'B': ['x', 'y', 'z']}, columns=['A', 'B']) >>> new_column = ps.Series(['d', 'e'], name='B', index=[0, 2]) >>> df.update(new_column) >>> df.sort_index() A B 0 a d 1 b y 2 c e
如果
other
包含 None 相应的值不会在原始数据帧中更新。>>> df = ps.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}, columns=['A', 'B']) >>> new_df = ps.DataFrame({'B': [4, None, 6]}, columns=['B']) >>> df.update(new_df) >>> df.sort_index() A B 0 1 4.0 1 2 500.0 2 3 6.0
相关用法
- Python pyspark DataFrame.unionByName用法及代码示例
- Python pyspark DataFrame.unstack用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.div用法及代码示例
- Python pyspark DataFrame.drop_duplicates用法及代码示例
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.transform用法及代码示例
- Python pyspark DataFrame.get用法及代码示例
- Python pyspark DataFrame.rsub用法及代码示例
- Python pyspark DataFrame.pandas_on_spark.apply_batch用法及代码示例
- Python pyspark DataFrame.groupBy用法及代码示例
- Python pyspark DataFrame.head用法及代码示例
- Python pyspark DataFrame.copy用法及代码示例
- Python pyspark DataFrame.values用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.update。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。