本文簡要介紹
pyspark.pandas.read_parquet
的用法。用法:
pyspark.pandas.read_parquet(path: str, columns: Optional[List[str]] = None, index_col: Optional[List[str]] = None, pandas_metadata: bool = False, **options: Any) → pyspark.pandas.frame.DataFrame
從文件路徑加載 parquet 對象,返回 DataFrame。
- path:string
文件路徑
- columns:列表,默認=無
如果不是 None,則隻會從文件中讀取這些列。
- index_col:str 或 str 列表,可選,默認值:無
Spark中表的索引列。
- pandas_metadata:布爾值,默認值:假
如果為 True,如果 Parquet 文件是從 pandas 寫入的,請嘗試尊重元數據。
- options:dict
所有其他選項直接傳遞到 Spark 的數據源。
- DataFrame
參數:
返回:
例子:
>>> ps.range(1).to_parquet('%s/read_spark_io/data.parquet' % path) >>> ps.read_parquet('%s/read_spark_io/data.parquet' % path, columns=['id']) id 0 0
您可以在往返中保留索引,如下所示。
>>> ps.range(1).to_parquet('%s/read_spark_io/data.parquet' % path, index_col="index") >>> ps.read_parquet('%s/read_spark_io/data.parquet' % path, columns=['id'], index_col="index") ... id index 0 0
相關用法
- Python pyspark read_json用法及代碼示例
- Python pyspark read_spark_io用法及代碼示例
- Python pyspark read_delta用法及代碼示例
- Python pyspark read_orc用法及代碼示例
- Python pyspark read_table用法及代碼示例
- Python pyspark read_sql_query用法及代碼示例
- Python pyspark read_excel用法及代碼示例
- Python pyspark read_csv用法及代碼示例
- Python pyspark read_sql_table用法及代碼示例
- Python pyspark read_sql用法及代碼示例
- Python pyspark read_html用法及代碼示例
- Python pyspark reverse用法及代碼示例
- Python pyspark register_index_accessor用法及代碼示例
- Python pyspark register_series_accessor用法及代碼示例
- Python pyspark regexp_extract用法及代碼示例
- Python pyspark repeat用法及代碼示例
- Python pyspark register_dataframe_accessor用法及代碼示例
- Python pyspark regexp_replace用法及代碼示例
- Python pyspark range用法及代碼示例
- Python pyspark rand用法及代碼示例
- Python pyspark rpad用法及代碼示例
- Python pyspark round用法及代碼示例
- Python pyspark randn用法及代碼示例
- Python pyspark create_map用法及代碼示例
- Python pyspark date_add用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_parquet。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。