本文简要介绍
pyspark.pandas.DataFrame.to_parquet
的用法。用法:
DataFrame.to_parquet(path: str, mode: str = 'w', partition_cols: Union[str, List[str], None] = None, compression: Optional[str] = None, index_col: Union[str, List[str], None] = None, **options: Any) → None
将 DataFrame 作为 Parquet 文件或目录写入。
- path:str,必填
写入路径。
- mode:str
Python写模式,默认‘w’。
注意
mode 可以接受用于 Spark 写入模式的字符串。如‘append’, ‘overwrite’, ‘ignore’, ‘error’, ‘errorifexists’。
‘append’(相当于‘a’):将新数据追加到现有数据。
‘overwrite’(相当于‘w’):覆盖现有数据。
‘ignore’:如果数据已存在,则静默忽略此操作。
‘error’ 或 ‘errorifexists’:如果数据已存在,则抛出异常。
- partition_cols:str 或 str 列表,可选,默认无
分区列的名称
- compression:字符串 {‘none’, ‘uncompressed’, ‘snappy’, ‘gzip’, ‘lzo’, ‘brotli’, ‘lz4’, ‘zstd’}
保存到文件时使用的压缩编解码器。如果设置了 None,它将使用
spark.sql.parquet.compression.codec
中指定的值。- index_col: str or list of str, optional, default: None:
在 Spark 中用于表示 pandas-on-Spark 的索引的列名。 pandas-on-Spark 中的索引名称被忽略。默认情况下,索引总是丢失。
- options:dict
所有其他选项直接传递到 Spark 的数据源。
参数:
例子:
>>> df = ps.DataFrame(dict( ... date=list(pd.date_range('2012-1-1 12:00:00', periods=3, freq='M')), ... country=['KR', 'US', 'JP'], ... code=[1, 2 ,3]), columns=['date', 'country', 'code']) >>> df date country code 0 2012-01-31 12:00:00 KR 1 1 2012-02-29 12:00:00 US 2 2 2012-03-31 12:00:00 JP 3
>>> df.to_parquet('%s/to_parquet/foo.parquet' % path, partition_cols='date')
>>> df.to_parquet( ... '%s/to_parquet/foo.parquet' % path, ... mode = 'overwrite', ... partition_cols=['date', 'country'])
相关用法
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.to_pandas_on_spark用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.to_records用法及代码示例
- Python pyspark DataFrame.to_excel用法及代码示例
- Python pyspark DataFrame.to_spark_io用法及代码示例
- Python pyspark DataFrame.to_clipboard用法及代码示例
- Python pyspark DataFrame.to_numpy用法及代码示例
- Python pyspark DataFrame.to_orc用法及代码示例
- Python pyspark DataFrame.to_dict用法及代码示例
- Python pyspark DataFrame.to_markdown用法及代码示例
- Python pyspark DataFrame.to_csv用法及代码示例
- Python pyspark DataFrame.to_json用法及代码示例
- Python pyspark DataFrame.to_string用法及代码示例
- Python pyspark DataFrame.toPandas用法及代码示例
- Python pyspark DataFrame.toLocalIterator用法及代码示例
- Python pyspark DataFrame.toJSON用法及代码示例
- Python pyspark DataFrame.toDF用法及代码示例
- Python pyspark DataFrame.transform用法及代码示例
- Python pyspark DataFrame.take用法及代码示例
- Python pyspark DataFrame.tail用法及代码示例
- Python pyspark DataFrame.transpose用法及代码示例
- Python pyspark DataFrame.truncate用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.to_parquet。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。