当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.dataframe.DataFrame.to_csv用法及代码示例


用法:

DataFrame.to_csv(filename, **kwargs)

将 Dask DataFrame 存储到 CSV 文件

每个分区将创建一个文件名。您可以通过多种方式指定文件名。

使用全局字符串:

>>> df.to_csv('/path/to/data/export-*.csv')

* 将被递增序列 0, 1, 2, ... 替换

/path/to/data/export-0.csv
/path/to/data/export-1.csv

使用 globstring 和 name_function= 关键字参数。 name_function 函数应该期望一个整数并产生一个字符串。 name_function 生成的字符串必须保持其各自分区索引的顺序。

>>> from datetime import date, timedelta
>>> def name(i):
...     return str(date(2015, 1, 1) + i * timedelta(days=1))
>>> name(0)
'2015-01-01'
>>> name(15)
'2015-01-16'
>>> df.to_csv('/path/to/data/export-*.csv', name_function=name)
/path/to/data/export-2015-01-01.csv
/path/to/data/export-2015-01-02.csv
...

您还可以提供明确的路径列表:

>>> paths = ['/path/to/data/alice.csv', '/path/to/data/bob.csv', ...]  
>>> df.to_csv(paths)

参数

dfdask.DataFrame

要保存的数据

filenamestring

指示输出文件命名方案的路径 glob

single_file布尔值,默认为 False

是否将所有内容保存到单个 CSV 文件中。在单文件模式下,每个分区都附加在指定 CSV 文件的末尾。请注意,并非所有文件系统都支持附加模式,因此也支持单文件模式,尤其是在 S3 或 GCS 等云存储系统上。写入不受本地文件系统支持的文件时将发出警告。

encoding字符串,可选

表示要在输出文件中使用的编码的字符串,在 Python 2 上默认为 ‘ascii’,在 Python 3 上默认为“utf-8”。

modestr

Python写模式,默认‘w’

name_function可调用,默认无

函数接受一个整数(分区索引)并生成一个字符串来替换给定文件名 globstring 中的星号。应该保留分区的字典顺序。当 single_fileTrue 时不支持。

compression字符串,可选

表示要在输出文件中使用的压缩的字符串,允许的值为‘gzip’, ‘bz2’、‘xz’,仅在第一个参数是文件名时使用

computebool

如果为真,立即执行。如果为 False,则返回一组延迟对象,可以在以后计算。

storage_optionsdict

传递给后端文件系统类的参数。

header_first_partition_only布尔值,默认无

如果设置为 True ,则仅在第一个输出文件中写入标题行。默认情况下,在多文件模式下(single_fileFalse )将头写入所有分区,在单文件模式下仅写入一次( single_fileTrue )。单文件模式下不能为False

compute_kwargs字典,可选

传递给计算方法的选项

kwargs字典,可选

传递给pd.DataFrame.to_csv()的附加参数

返回

如果立即计算,则写入文件的名称
如果不是,则与文件写入相关的延迟任务

抛出

ValueError

如果 header_first_partition_only 设置为 Falsesingle_fileTrue 时指定 name_function

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.to_csv。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。