當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark read_parquet用法及代碼示例

本文簡要介紹 pyspark.pandas.read_parquet 的用法。

用法:

pyspark.pandas.read_parquet(path: str, columns: Optional[List[str]] = None, index_col: Optional[List[str]] = None, pandas_metadata: bool = False, **options: Any) → pyspark.pandas.frame.DataFrame

從文件路徑加載 parquet 對象,返回 DataFrame。

參數

pathstring

文件路徑

columns列表,默認=無

如果不是 None,則隻會從文件中讀取這些列。

index_colstr 或 str 列表,可選,默認值:無

Spark中表的索引列。

pandas_metadata布爾值,默認值:假

如果為 True,如果 Parquet 文件是從 pandas 寫入的,請嘗試尊重元數據。

optionsdict

所有其他選項直接傳遞到 Spark 的數據源。

返回

DataFrame

例子

>>> ps.range(1).to_parquet('%s/read_spark_io/data.parquet' % path)
>>> ps.read_parquet('%s/read_spark_io/data.parquet' % path, columns=['id'])
   id
0   0

您可以在往返中保留索引,如下所示。

>>> ps.range(1).to_parquet('%s/read_spark_io/data.parquet' % path, index_col="index")
>>> ps.read_parquet('%s/read_spark_io/data.parquet' % path, columns=['id'], index_col="index")
... 
       id
index
0       0

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_parquet。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。