Python dask.dataframe.DataFrame.to_csv用法及代码示例

用法:
DataFrame.to_csv(filename, **kwargs)

将 Dask DataFrame 存储到 CSV 文件

每个分区将创建一个文件名。您可以通过多种方式指定文件名。

使用全局字符串：

>>> df.to_csv('/path/to/data/export-*.csv')

* 将被递增序列 0, 1, 2, ... 替换

/path/to/data/export-0.csv
/path/to/data/export-1.csv

使用 globstring 和 name_function= 关键字参数。 name_function 函数应该期望一个整数并产生一个字符串。 name_function 生成的字符串必须保持其各自分区索引的顺序。

>>> from datetime import date, timedelta
>>> def name(i):
...     return str(date(2015, 1, 1) + i * timedelta(days=1))

>>> name(0)
'2015-01-01'
>>> name(15)
'2015-01-16'

>>> df.to_csv('/path/to/data/export-*.csv', name_function=name)

/path/to/data/export-2015-01-01.csv
/path/to/data/export-2015-01-02.csv
...

您还可以提供明确的路径列表：

>>> paths = ['/path/to/data/alice.csv', '/path/to/data/bob.csv', ...]  
>>> df.to_csv(paths)

参数：

df：dask.DataFrame: 要保存的数据
filename：string: 指示输出文件命名方案的路径 glob
single_file：布尔值，默认为 False: 是否将所有内容保存到单个 CSV 文件中。在单文件模式下，每个分区都附加在指定 CSV 文件的末尾。请注意，并非所有文件系统都支持附加模式，因此也支持单文件模式，尤其是在 S3 或 GCS 等云存储系统上。写入不受本地文件系统支持的文件时将发出警告。
encoding：字符串，可选: 表示要在输出文件中使用的编码的字符串，在 Python 2 上默认为 ‘ascii’，在 Python 3 上默认为“utf-8”。
mode：str: Python写模式，默认‘w’
name_function：可调用，默认无: 函数接受一个整数(分区索引)并生成一个字符串来替换给定文件名 globstring 中的星号。应该保留分区的字典顺序。当 single_file 为 True 时不支持。
compression：字符串，可选: 表示要在输出文件中使用的压缩的字符串，允许的值为‘gzip’, ‘bz2’、‘xz’，仅在第一个参数是文件名时使用
compute：bool: 如果为真，立即执行。如果为 False，则返回一组延迟对象，可以在以后计算。
storage_options：dict: 传递给后端文件系统类的参数。
header_first_partition_only：布尔值，默认无: 如果设置为 True ，则仅在第一个输出文件中写入标题行。默认情况下，在多文件模式下(single_file 为 False )将头写入所有分区，在单文件模式下仅写入一次( single_file 为 True )。单文件模式下不能为False。
compute_kwargs：字典，可选: 传递给计算方法的选项
kwargs：字典，可选: 传递给pd.DataFrame.to_csv()的附加参数

如果立即计算，则写入文件的名称
如果不是，则与文件写入相关的延迟任务

抛出：

ValueError: 如果 header_first_partition_only 设置为 False 或 single_file 为 True 时指定 name_function 。

相关用法

注：本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.to_csv。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

抛出：