当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark DataFrame toDF方法用法及代码示例


PySpark DataFrame 的 toDF(~) 方法返回一个新的 DataFrame,其中的列按照您指定的顺序排列。

警告

此方法仅允许您更改列的顺序 - 新的 DataFrame 必须包含与以前相同的列。

参数

1. *cols | str

要包含的列。

返回值

PySpark 数据帧。

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([["Alex", 20], ["Bob", 30]], ["name", "age"])
df.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
| Bob| 30|
+----+---+

在 PySpark 中按特定顺序排列列

要从 age 首先排列列,然后从 name 第二排列列:

df.toDF("age", "name").show()



+----+----+
| age|name|
+----+----+
|Alex|  20|
| Bob|  30|
+----+----+

请注意,如果新的 DataFrame 的列与原始 DataFrame 不匹配,则会抛出错误:

df.toDF("age").show()



IllegalArgumentException: requirement failed: The number of columns doesn't match.
Old column names (2): name, age
New column names (1): age

按字母顺序排列 PySpark 中的列

要按字母顺序排列列:

df.toDF(*sorted(df.columns)).show()



+----+----+
| age|name|
+----+----+
|Alex|  20|
| Bob|  30|
+----+----+

这里:

  • sorted(~) 按字母顺序返回列标签。

  • * 用于将列表转换为位置参数。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | toDF method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。