用法:
dask.dataframe.to_csv(df, filename, single_file=False, encoding='utf-8', mode='wt', name_function=None, compression=None, compute=True, scheduler=None, storage_options=None, header_first_partition_only=None, compute_kwargs=None, **kwargs)
将 Dask DataFrame 存储到 CSV 文件
每个分区将创建一个文件名。您可以通过多种方式指定文件名。
使用全局字符串:
>>> df.to_csv('/path/to/data/export-*.csv')
* 将被递增序列 0, 1, 2, ... 替换
/path/to/data/export-0.csv /path/to/data/export-1.csv
使用 globstring 和
name_function=
关键字参数。 name_function 函数应该期望一个整数并产生一个字符串。 name_function 生成的字符串必须保持其各自分区索引的顺序。>>> from datetime import date, timedelta >>> def name(i): ... return str(date(2015, 1, 1) + i * timedelta(days=1))
>>> name(0) '2015-01-01' >>> name(15) '2015-01-16'
>>> df.to_csv('/path/to/data/export-*.csv', name_function=name)
/path/to/data/export-2015-01-01.csv /path/to/data/export-2015-01-02.csv ...
您还可以提供明确的路径列表:
>>> paths = ['/path/to/data/alice.csv', '/path/to/data/bob.csv', ...] >>> df.to_csv(paths)
- df:dask.DataFrame
要保存的数据
- filename:string
指示输出文件命名方案的路径 glob
- single_file:布尔值,默认为 False
是否将所有内容保存到单个 CSV 文件中。在单文件模式下,每个分区都附加在指定 CSV 文件的末尾。请注意,并非所有文件系统都支持附加模式,因此也支持单文件模式,尤其是在 S3 或 GCS 等云存储系统上。写入不受本地文件系统支持的文件时将发出警告。
- encoding:字符串,可选
表示要在输出文件中使用的编码的字符串,在 Python 2 上默认为 ‘ascii’,在 Python 3 上默认为“utf-8”。
- mode:str
Python写模式,默认‘w’
- name_function:可调用,默认无
函数接受一个整数(分区索引)并生成一个字符串来替换给定文件名 globstring 中的星号。应该保留分区的字典顺序。当
single_file
为True
时不支持。- compression:字符串,可选
表示要在输出文件中使用的压缩的字符串,允许的值为‘gzip’, ‘bz2’、‘xz’,仅在第一个参数是文件名时使用
- compute:bool
如果为真,立即执行。如果为 False,则返回一组延迟对象,可以在以后计算。
- storage_options:dict
传递给后端文件系统类的参数。
- header_first_partition_only:布尔值,默认无
如果设置为
True
,则仅在第一个输出文件中写入标题行。默认情况下,在多文件模式下(single_file
为False
)将头写入所有分区,在单文件模式下仅写入一次(single_file
为True
)。单文件模式下不能为False
。- compute_kwargs:字典,可选
传递给计算方法的选项
- kwargs:字典,可选
传递给
pd.DataFrame.to_csv()
的附加参数
- 如果立即计算,则写入文件的名称
- 如果不是,则与文件写入相关的延迟任务
- ValueError
如果
header_first_partition_only
设置为False
或single_file
为True
时指定name_function
。
参数:
返回:
抛出:
相关用法
- Python dask.dataframe.to_records用法及代码示例
- Python dask.dataframe.to_datetime用法及代码示例
- Python dask.dataframe.to_hdf用法及代码示例
- Python dask.dataframe.to_parquet用法及代码示例
- Python dask.dataframe.to_sql用法及代码示例
- Python dask.dataframe.to_numeric用法及代码示例
- Python dask.dataframe.tseries.resample.Resampler.agg用法及代码示例
- Python dask.dataframe.tseries.resample.Resampler.mean用法及代码示例
- Python dask.dataframe.Series.apply用法及代码示例
- Python dask.dataframe.DataFrame.applymap用法及代码示例
- Python dask.dataframe.Series.clip用法及代码示例
- Python dask.dataframe.Series.prod用法及代码示例
- Python dask.dataframe.Series.fillna用法及代码示例
- Python dask.dataframe.DataFrame.sub用法及代码示例
- Python dask.dataframe.compute用法及代码示例
- Python dask.dataframe.DataFrame.mod用法及代码示例
- Python dask.dataframe.Series.to_frame用法及代码示例
- Python dask.dataframe.read_table用法及代码示例
- Python dask.dataframe.read_hdf用法及代码示例
- Python dask.dataframe.Series.sum用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.to_csv。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。