當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark read_spark_io用法及代碼示例


本文簡要介紹 pyspark.pandas.read_spark_io 的用法。

用法:

pyspark.pandas.read_spark_io(path: Optional[str] = None, format: Optional[str] = None, schema: Union[str, StructType] = None, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

從 Spark 數據源加載 DataFrame。

參數

path字符串,可選

數據源的路徑。

format字符串,可選

指定輸出數據源格式。一些常見的有:

  • ‘delta’

  • ‘parquet’

  • ‘orc’

  • ‘json’

  • ‘csv’

schema字符串或結構類型,可選

輸入架構。如果沒有,Spark 會嘗試自動推斷模式。架構可以是 Spark StructType,也可以是 DDL 格式的字符串,例如 col0 INT, col1 DOUBLE

index_colstr 或 str 列表,可選,默認值:無

Spark中表的索引列。

optionsdict

所有其他選項直接傳遞到 Spark 的數據源。

例子

>>> ps.range(1).to_spark_io('%s/read_spark_io/data.parquet' % path)
>>> ps.read_spark_io(
...     '%s/read_spark_io/data.parquet' % path, format='parquet', schema='id long')
   id
0   0
>>> ps.range(10, 15, num_partitions=1).to_spark_io('%s/read_spark_io/data.json' % path,
...                                                format='json', lineSep='__')
>>> ps.read_spark_io(
...     '%s/read_spark_io/data.json' % path, format='json', schema='id long', lineSep='__')
   id
0  10
1  11
2  12
3  13
4  14

您可以在往返中保留索引,如下所示。

>>> ps.range(10, 15, num_partitions=1).to_spark_io('%s/read_spark_io/data.orc' % path,
...                                                format='orc', index_col="index")
>>> ps.read_spark_io(
...     path=r'%s/read_spark_io/data.orc' % path, format="orc", index_col="index")
... 
       id
index
0      10
1      11
2      12
3      13
4      14

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_spark_io。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。