Python pyspark DataFrame.to_pandas_on_spark用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrame.to_pandas_on_spark 的用法。

用法: DataFrame.to_pandas_on_spark(index_col=None)

將現有的 DataFrame 轉換為 pandas-on-Spark DataFrame。

如果pandas-on-Spark DataFrame轉換為Spark DataFrame，然後再轉換回pandas-on-Spark，它將丟失索引信息，原始索引將變成普通列。

僅當 Pandas 已安裝且可用時才可用。

>>> df.show()  
+----+----+
|Col1|Col2|
+----+----+
|   a|   1|
|   b|   2|
|   c|   3|
+----+----+

>>> df.to_pandas_on_spark()  
  Col1  Col2
0    a     1
1    b     2
2    c     3

我們可以指定索引列。

>>> df.to_pandas_on_spark(index_col="Col1"): 
      Col2
Col1
a        1
b        2
c        3

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.to_pandas_on_spark。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。