當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python dask.dataframe.DataFrame.to_csv用法及代碼示例


用法:

DataFrame.to_csv(filename, **kwargs)

將 Dask DataFrame 存儲到 CSV 文件

每個分區將創建一個文件名。您可以通過多種方式指定文件名。

使用全局字符串:

>>> df.to_csv('/path/to/data/export-*.csv')

* 將被遞增序列 0, 1, 2, ... 替換

/path/to/data/export-0.csv
/path/to/data/export-1.csv

使用 globstring 和 name_function= 關鍵字參數。 name_function 函數應該期望一個整數並產生一個字符串。 name_function 生成的字符串必須保持其各自分區索引的順序。

>>> from datetime import date, timedelta
>>> def name(i):
...     return str(date(2015, 1, 1) + i * timedelta(days=1))
>>> name(0)
'2015-01-01'
>>> name(15)
'2015-01-16'
>>> df.to_csv('/path/to/data/export-*.csv', name_function=name)
/path/to/data/export-2015-01-01.csv
/path/to/data/export-2015-01-02.csv
...

您還可以提供明確的路徑列表:

>>> paths = ['/path/to/data/alice.csv', '/path/to/data/bob.csv', ...]  
>>> df.to_csv(paths)

參數

dfdask.DataFrame

要保存的數據

filenamestring

指示輸出文件命名方案的路徑 glob

single_file布爾值,默認為 False

是否將所有內容保存到單個 CSV 文件中。在單文件模式下,每個分區都附加在指定 CSV 文件的末尾。請注意,並非所有文件係統都支持附加模式,因此也支持單文件模式,尤其是在 S3 或 GCS 等雲存儲係統上。寫入不受本地文件係統支持的文件時將發出警告。

encoding字符串,可選

表示要在輸出文件中使用的編碼的字符串,在 Python 2 上默認為 ‘ascii’,在 Python 3 上默認為“utf-8”。

modestr

Python寫模式,默認‘w’

name_function可調用,默認無

函數接受一個整數(分區索引)並生成一個字符串來替換給定文件名 globstring 中的星號。應該保留分區的字典順序。當 single_fileTrue 時不支持。

compression字符串,可選

表示要在輸出文件中使用的壓縮的字符串,允許的值為‘gzip’, ‘bz2’、‘xz’,僅在第一個參數是文件名時使用

computebool

如果為真,立即執行。如果為 False,則返回一組延遲對象,可以在以後計算。

storage_optionsdict

傳遞給後端文件係統類的參數。

header_first_partition_only布爾值,默認無

如果設置為 True ,則僅在第一個輸出文件中寫入標題行。默認情況下,在多文件模式下(single_fileFalse )將頭寫入所有分區,在單文件模式下僅寫入一次( single_fileTrue )。單文件模式下不能為False

compute_kwargs字典,可選

傳遞給計算方法的選項

kwargs字典,可選

傳遞給pd.DataFrame.to_csv()的附加參數

返回

如果立即計算,則寫入文件的名稱
如果不是,則與文件寫入相關的延遲任務

拋出

ValueError

如果 header_first_partition_only 設置為 Falsesingle_fileTrue 時指定 name_function

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.DataFrame.to_csv。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。