當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.spark.to_table用法及代碼示例


本文簡要介紹 pyspark.pandas.DataFrame.spark.to_table 的用法。

用法:

spark.to_table(name: str, format: Optional[str] = None, mode: str = 'overwrite', partition_cols: Union[str, List[str], None] = None, index_col: Union[str, List[str], None] = None, **options: OptionalPrimitiveType) → None

將DataFrame寫入Spark表中。 DataFrame.spark.to_table()DataFrame.to_table() 的別名。

參數

namestr,必填

Spark 中的表名。

format字符串,可選

指定輸出數據源格式。一些常見的有:

  • ‘delta’

  • ‘parquet’

  • ‘orc’

  • ‘json’

  • ‘csv’

modestr {‘append’, ‘overwrite’, ‘ignore’, ‘error’, ‘errorifexists’},默認

‘overwrite’。指定表已存在時保存操作的行為。

  • ‘append’:將新數據附加到現有數據。

  • ‘overwrite’:覆蓋現有數據。

  • ‘ignore’:如果數據已存在,則靜默忽略此操作。

  • ‘error’ 或 ‘errorifexists’:如果數據已存在,則拋出異常。

partition_colsstr 或 str 列表,可選,默認無

分區列的名稱

index_col: str or list of str, optional, default: None

在 Spark 中用於表示 pandas-on-Spark 的索引的列名。 pandas-on-Spark 中的索引名稱被忽略。默認情況下,索引總是丟失。

options

其他選項直接傳遞給 Spark。

返回

None

例子

>>> df = ps.DataFrame(dict(
...    date=list(pd.date_range('2012-1-1 12:00:00', periods=3, freq='M')),
...    country=['KR', 'US', 'JP'],
...    code=[1, 2 ,3]), columns=['date', 'country', 'code'])
>>> df
                 date country  code
0 2012-01-31 12:00:00      KR     1
1 2012-02-29 12:00:00      US     2
2 2012-03-31 12:00:00      JP     3
>>> df.to_table('%s.my_table' % db, partition_cols='date')

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.spark.to_table。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。