Python pyspark read_spark_io用法及代码示例

本文简要介绍 pyspark.pandas.read_spark_io 的用法。

用法:
pyspark.pandas.read_spark_io(path: Optional[str] = None, format: Optional[str] = None, schema: Union[str, StructType] = None, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

从 Spark 数据源加载 DataFrame。

参数：

path：字符串，可选

数据源的路径。

format：字符串，可选

指定输出数据源格式。一些常见的有：

‘delta’
‘parquet’
‘orc’
‘json’
‘csv’

schema：字符串或结构类型，可选

输入架构。如果没有，Spark 会尝试自动推断模式。架构可以是 Spark StructType，也可以是 DDL 格式的字符串，例如 col0 INT, col1 DOUBLE 。

index_col：str 或 str 列表，可选，默认值：无

Spark中表的索引列。

options：dict

所有其他选项直接传递到 Spark 的数据源。

例子：

>>> ps.range(1).to_spark_io('%s/read_spark_io/data.parquet' % path)
>>> ps.read_spark_io(
...     '%s/read_spark_io/data.parquet' % path, format='parquet', schema='id long')
   id
0   0

>>> ps.range(10, 15, num_partitions=1).to_spark_io('%s/read_spark_io/data.json' % path,
...                                                format='json', lineSep='__')
>>> ps.read_spark_io(
...     '%s/read_spark_io/data.json' % path, format='json', schema='id long', lineSep='__')
   id
0  10
1  11
2  12
3  13
4  14

您可以在往返中保留索引，如下所示。

>>> ps.range(10, 15, num_partitions=1).to_spark_io('%s/read_spark_io/data.orc' % path,
...                                                format='orc', index_col="index")
>>> ps.read_spark_io(
...     path=r'%s/read_spark_io/data.orc' % path, format="orc", index_col="index")
... 
       id
index
0      10
1      11
2      12
3      13
4      14

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_spark_io。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。