当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.to_spark_io用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.to_spark_io 的用法。

用法:

DataFrame.to_spark_io(path: Optional[str] = None, format: Optional[str] = None, mode: str = 'overwrite', partition_cols: Union[str, List[str], None] = None, index_col: Union[str, List[str], None] = None, **options: OptionalPrimitiveType) → None

将 DataFrame 写入 Spark 数据源。 DataFrame.spark.to_spark_io() DataFrame.to_spark_io() 的别名。

参数

path字符串,可选

数据源的路径。

format字符串,可选

指定输出数据源格式。一些常见的有:

  • ‘delta’

  • ‘parquet’

  • ‘orc’

  • ‘json’

  • ‘csv’

modestr {‘append’, ‘overwrite’, ‘ignore’, ‘error’, ‘errorifexists’},默认

‘overwrite’。指定数据已经存在时保存操作的行为。

  • ‘append’:将新数据附加到现有数据。

  • ‘overwrite’:覆盖现有数据。

  • ‘ignore’:如果数据已存在,则静默忽略此操作。

  • ‘error’ 或 ‘errorifexists’:如果数据已存在,则抛出异常。

partition_colsstr 或 str 列表,可选

分区列的名称

index_col: str or list of str, optional, default: None

在 Spark 中用于表示 pandas-on-Spark 的索引的列名。 pandas-on-Spark 中的索引名称被忽略。默认情况下,索引总是丢失。

optionsdict

所有其他选项直接传递到 Spark 的数据源。

返回

None

例子

>>> df = ps.DataFrame(dict(
...    date=list(pd.date_range('2012-1-1 12:00:00', periods=3, freq='M')),
...    country=['KR', 'US', 'JP'],
...    code=[1, 2 ,3]), columns=['date', 'country', 'code'])
>>> df
                 date country  code
0 2012-01-31 12:00:00      KR     1
1 2012-02-29 12:00:00      US     2
2 2012-03-31 12:00:00      JP     3
>>> df.to_spark_io(path='%s/to_spark_io/foo.json' % path, format='json')

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.to_spark_io。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。