当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.dataframe.DataFrame.repartition用法及代码示例


用法:

DataFrame.repartition(divisions=None, npartitions=None, partition_size=None, freq=None, force=False)

沿新部门重新分区 DataFrame

参数

divisions列表,可选

要使用的分区列表。仅在未指定 npartitions 和 partition_size 时使用。为方便起见,如果给定一个整数,这将推迟到 npartitions,如果给定一个字符串,它将推迟到 partition_size(见下文)

npartitions整数,可选

输出的分区数。仅在未指定 partition_size 时使用。

partition_size: int or string, optional

每个分区的最大内存字节数。使用数字或字符串,例如 5MB。如果指定了 npartitions 和 divisions 将被忽略。

警告

此关键字参数触发计算以确定每个分区的内存大小,这可能很昂贵。

freqstr, pd.Timedelta

对时间序列数据进行分区的时间段,例如 '7D''12h'pd.Timedelta(hours=12) 。假设一个日期时间索引。

force布尔值,默认为 False

允许扩展现有的部门。如果为 False,则新分区的下限和上限必须与旧分区相同。

注意

应该指定 divisions , npartitions , partition_sizefreq 中的一个。如果不是这种情况,将引发 ValueError

例子

>>> df = df.repartition(npartitions=10)  
>>> df = df.repartition(divisions=[0, 5, 10, 20])  
>>> df = df.repartition(freq='7d')

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.repartition。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。