当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.withColumn用法及代码示例


本文简要介绍 pyspark.sql.DataFrame.withColumn 的用法。

用法:

DataFrame.withColumn(colName, col)

通过添加列或替换具有相同名称的现有列来返回新的 DataFrame

列表达式必须是对此 DataFrame 的表达式;尝试从其他 DataFrame 添加列将引发错误。

版本 1.3.0 中的新函数。

参数

colNamestr

字符串,新列的名称。

colColumn

新列的 Column 表达式。

注意

此方法在内部引入了投影。因此,多次调用它,例如,通过循环以添加多个列可能会生成可能导致性能问题甚至 StackOverflowException 的大计划。为避免这种情况,请同时对多列使用 select()

例子

>>> df.withColumn('age2', df.age + 2).collect()
[Row(age=2, name='Alice', age2=4), Row(age=5, name='Bob', age2=7)]

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.withColumn。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。