Python pyspark read_parquet用法及代码示例

本文简要介绍 pyspark.pandas.read_parquet 的用法。

用法:
pyspark.pandas.read_parquet(path: str, columns: Optional[List[str]] = None, index_col: Optional[List[str]] = None, pandas_metadata: bool = False, **options: Any) → pyspark.pandas.frame.DataFrame

从文件路径加载 parquet 对象，返回 DataFrame。

参数：

path：string: 文件路径
columns：列表，默认=无: 如果不是 None，则只会从文件中读取这些列。
index_col：str 或 str 列表，可选，默认值：无: Spark中表的索引列。
pandas_metadata：布尔值，默认值：假: 如果为 True，如果 Parquet 文件是从 pandas 写入的，请尝试尊重元数据。
options：dict: 所有其他选项直接传递到 Spark 的数据源。

DataFrame

例子：

>>> ps.range(1).to_parquet('%s/read_spark_io/data.parquet' % path)
>>> ps.read_parquet('%s/read_spark_io/data.parquet' % path, columns=['id'])
   id
0   0

您可以在往返中保留索引，如下所示。

>>> ps.range(1).to_parquet('%s/read_spark_io/data.parquet' % path, index_col="index")
>>> ps.read_parquet('%s/read_spark_io/data.parquet' % path, columns=['id'], index_col="index")
... 
       id
index
0       0

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_parquet。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：