當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark DataFrame toDF方法用法及代碼示例


PySpark DataFrame 的 toDF(~) 方法返回一個新的 DataFrame,其中的列按照您指定的順序排列。

警告

此方法僅允許您更改列的順序 - 新的 DataFrame 必須包含與以前相同的列。

參數

1. *cols | str

要包含的列。

返回值

PySpark 數據幀。

例子

考慮以下PySpark DataFrame:

df = spark.createDataFrame([["Alex", 20], ["Bob", 30]], ["name", "age"])
df.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
| Bob| 30|
+----+---+

在 PySpark 中按特定順序排列列

要從 age 首先排列列,然後從 name 第二排列列:

df.toDF("age", "name").show()



+----+----+
| age|name|
+----+----+
|Alex|  20|
| Bob|  30|
+----+----+

請注意,如果新的 DataFrame 的列與原始 DataFrame 不匹配,則會拋出錯誤:

df.toDF("age").show()



IllegalArgumentException: requirement failed: The number of columns doesn't match.
Old column names (2): name, age
New column names (1): age

按字母順序排列 PySpark 中的列

要按字母順序排列列:

df.toDF(*sorted(df.columns)).show()



+----+----+
| age|name|
+----+----+
|Alex|  20|
| Bob|  30|
+----+----+

這裏:

  • sorted(~) 按字母順序返回列標簽。

  • * 用於將列表轉換為位置參數。

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | toDF method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。