pyspark.pandas.DataFrame.to_csv
的用法。用法:
DataFrame.to_csv(path: Optional[str] = None, sep: str = ',', na_rep: str = '', columns: Optional[List[Union[Any, Tuple[Any, …]]]] = None, header: bool = True, quotechar: str = '"', date_format: Optional[str] = None, escapechar: Optional[str] = None, num_files: Optional[int] = None, mode: str = 'w', partition_cols: Union[str, List[str], None] = None, index_col: Union[str, List[str], None] = None, **options: Any) → Optional[str]
將對象寫入逗號分隔值 (csv) 文件。
注意
pandas-on-Spark
to_csv
將文件寫入路徑或 URI。與 pandas 不同,pandas-on-Spark 尊重 HDFS 的屬性,例如“fs.default.name”。注意
pandas-on-Spark 將 CSV 文件寫入目錄
path
,並在指定path
時在目錄中寫入多個part-…
文件。此行為繼承自 Apache Spark。文件的數量可以通過num_files
來控製。- path:str,默認無
文件路徑。如果提供 None ,則結果作為字符串返回。
- sep:str,默認“,”
長度為 1 的字符串。輸出文件的字段分隔符。
- na_rep:str,默認“”
缺少數據表示。
- columns:順序,可選
要寫的列。
- header:bool 或 str 列表,默認 True
寫出列名。如果給出字符串列表,則假定它是列名的別名。
- quotechar:str,默認“”
長度為 1 的字符串。用於引用字段的字符。
- date_format:str,默認無
日期時間對象的格式字符串。
- escapechar:str,默認無
長度為 1 的字符串。用於在適當時轉義
sep
和quotechar
的字符。- num_files:
path
目錄中要寫入的文件數 這是一條路徑。
- mode:str
Python寫模式,默認‘w’。
注意
mode 可以接受用於 Spark 寫入模式的字符串。如‘append’, ‘overwrite’, ‘ignore’, ‘error’, ‘errorifexists’。
‘append’(相當於‘a’):將新數據追加到現有數據。
‘overwrite’(相當於‘w’):覆蓋現有數據。
‘ignore’:如果數據已存在,則靜默忽略此操作。
‘error’ 或 ‘errorifexists’:如果數據已存在,則拋出異常。
- partition_cols:str 或 str 列表,可選,默認無
分區列的名稱
- index_col: str or list of str, optional, default: None:
在 Spark 中用於表示 pandas-on-Spark 的索引的列名。 pandas-on-Spark 中的索引名稱被忽略。默認情況下,索引總是丟失。
- options: keyword arguments for additional options specific to PySpark.:
這個 kwargs 特定於 PySpark 的 CSV 選項來傳遞。檢查 PySpark 的 API 文檔中有關 spark.write.csv(...) 的選項。它具有更高的優先級並覆蓋所有其他選項。此參數僅在指定
path
時有效。
- str 或 None
參數:
返回:
例子:
>>> df = ps.DataFrame(dict( ... date=list(pd.date_range('2012-1-1 12:00:00', periods=3, freq='M')), ... country=['KR', 'US', 'JP'], ... code=[1, 2 ,3]), columns=['date', 'country', 'code']) >>> df.sort_values(by="date") date country code ... 2012-01-31 12:00:00 KR 1 ... 2012-02-29 12:00:00 US 2 ... 2012-03-31 12:00:00 JP 3
>>> print(df.to_csv()) date,country,code 2012-01-31 12:00:00,KR,1 2012-02-29 12:00:00,US,2 2012-03-31 12:00:00,JP,3
>>> df.cummax().to_csv(path=r'%s/to_csv/foo.csv' % path, num_files=1) >>> ps.read_csv( ... path=r'%s/to_csv/foo.csv' % path ... ).sort_values(by="date") date country code ... 2012-01-31 12:00:00 KR 1 ... 2012-02-29 12:00:00 US 2 ... 2012-03-31 12:00:00 US 3
在係列的情況下,
>>> print(df.date.to_csv()) date 2012-01-31 12:00:00 2012-02-29 12:00:00 2012-03-31 12:00:00
>>> df.date.to_csv(path=r'%s/to_csv/foo.csv' % path, num_files=1) >>> ps.read_csv( ... path=r'%s/to_csv/foo.csv' % path ... ).sort_values(by="date") date ... 2012-01-31 12:00:00 ... 2012-02-29 12:00:00 ... 2012-03-31 12:00:00
您可以在往返中保留索引,如下所示。
>>> df.set_index("country", append=True, inplace=True) >>> df.date.to_csv( ... path=r'%s/to_csv/bar.csv' % path, ... num_files=1, ... index_col=["index1", "index2"]) >>> ps.read_csv( ... path=r'%s/to_csv/bar.csv' % path, index_col=["index1", "index2"] ... ).sort_values(by="date") date index1 index2 ... ... 2012-01-31 12:00:00 ... ... 2012-02-29 12:00:00 ... ... 2012-03-31 12:00:00
相關用法
- Python pyspark DataFrame.to_clipboard用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.to_table用法及代碼示例
- Python pyspark DataFrame.to_pandas用法及代碼示例
- Python pyspark DataFrame.to_records用法及代碼示例
- Python pyspark DataFrame.to_excel用法及代碼示例
- Python pyspark DataFrame.to_spark_io用法及代碼示例
- Python pyspark DataFrame.to_pandas_on_spark用法及代碼示例
- Python pyspark DataFrame.to_numpy用法及代碼示例
- Python pyspark DataFrame.to_orc用法及代碼示例
- Python pyspark DataFrame.to_dict用法及代碼示例
- Python pyspark DataFrame.to_parquet用法及代碼示例
- Python pyspark DataFrame.to_markdown用法及代碼示例
- Python pyspark DataFrame.to_json用法及代碼示例
- Python pyspark DataFrame.to_string用法及代碼示例
- Python pyspark DataFrame.toPandas用法及代碼示例
- Python pyspark DataFrame.toLocalIterator用法及代碼示例
- Python pyspark DataFrame.toJSON用法及代碼示例
- Python pyspark DataFrame.toDF用法及代碼示例
- Python pyspark DataFrame.transform用法及代碼示例
- Python pyspark DataFrame.take用法及代碼示例
- Python pyspark DataFrame.tail用法及代碼示例
- Python pyspark DataFrame.transpose用法及代碼示例
- Python pyspark DataFrame.truncate用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.to_csv。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。