本文简要介绍
pyspark.pandas.read_spark_io
的用法。用法:
pyspark.pandas.read_spark_io(path: Optional[str] = None, format: Optional[str] = None, schema: Union[str, StructType] = None, index_col: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame
从 Spark 数据源加载 DataFrame。
- path:字符串,可选
数据源的路径。
- format:字符串,可选
指定输出数据源格式。一些常见的有:
‘delta’
‘parquet’
‘orc’
‘json’
‘csv’
- schema:字符串或结构类型,可选
输入架构。如果没有,Spark 会尝试自动推断模式。架构可以是 Spark StructType,也可以是 DDL 格式的字符串,例如
col0 INT, col1 DOUBLE
。- index_col:str 或 str 列表,可选,默认值:无
Spark中表的索引列。
- options:dict
所有其他选项直接传递到 Spark 的数据源。
参数:
例子:
>>> ps.range(1).to_spark_io('%s/read_spark_io/data.parquet' % path) >>> ps.read_spark_io( ... '%s/read_spark_io/data.parquet' % path, format='parquet', schema='id long') id 0 0
>>> ps.range(10, 15, num_partitions=1).to_spark_io('%s/read_spark_io/data.json' % path, ... format='json', lineSep='__') >>> ps.read_spark_io( ... '%s/read_spark_io/data.json' % path, format='json', schema='id long', lineSep='__') id 0 10 1 11 2 12 3 13 4 14
您可以在往返中保留索引,如下所示。
>>> ps.range(10, 15, num_partitions=1).to_spark_io('%s/read_spark_io/data.orc' % path, ... format='orc', index_col="index") >>> ps.read_spark_io( ... path=r'%s/read_spark_io/data.orc' % path, format="orc", index_col="index") ... id index 0 10 1 11 2 12 3 13 4 14
相关用法
- Python pyspark read_sql_query用法及代码示例
- Python pyspark read_sql_table用法及代码示例
- Python pyspark read_sql用法及代码示例
- Python pyspark read_json用法及代码示例
- Python pyspark read_parquet用法及代码示例
- Python pyspark read_delta用法及代码示例
- Python pyspark read_orc用法及代码示例
- Python pyspark read_table用法及代码示例
- Python pyspark read_excel用法及代码示例
- Python pyspark read_csv用法及代码示例
- Python pyspark read_html用法及代码示例
- Python pyspark reverse用法及代码示例
- Python pyspark register_index_accessor用法及代码示例
- Python pyspark register_series_accessor用法及代码示例
- Python pyspark regexp_extract用法及代码示例
- Python pyspark repeat用法及代码示例
- Python pyspark register_dataframe_accessor用法及代码示例
- Python pyspark regexp_replace用法及代码示例
- Python pyspark range用法及代码示例
- Python pyspark rand用法及代码示例
- Python pyspark rpad用法及代码示例
- Python pyspark round用法及代码示例
- Python pyspark randn用法及代码示例
- Python pyspark create_map用法及代码示例
- Python pyspark date_add用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_spark_io。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。