用法:
DataFrame.repartition(divisions=None, npartitions=None, partition_size=None, freq=None, force=False)
沿新部门重新分区 DataFrame
- divisions:列表,可选
要使用的分区列表。仅在未指定 npartitions 和 partition_size 时使用。为方便起见,如果给定一个整数,这将推迟到 npartitions,如果给定一个字符串,它将推迟到 partition_size(见下文)
- npartitions:整数,可选
输出的分区数。仅在未指定 partition_size 时使用。
- partition_size: int or string, optional:
每个分区的最大内存字节数。使用数字或字符串,例如 5MB。如果指定了 npartitions 和 divisions 将被忽略。
警告
此关键字参数触发计算以确定每个分区的内存大小,这可能很昂贵。
- freq:str, pd.Timedelta
对时间序列数据进行分区的时间段,例如
'7D'
或'12h'
或pd.Timedelta(hours=12)
。假设一个日期时间索引。- force:布尔值,默认为 False
允许扩展现有的部门。如果为 False,则新分区的下限和上限必须与旧分区相同。
参数:
注意:
应该指定
divisions
,npartitions
,partition_size
或freq
中的一个。如果不是这种情况,将引发ValueError
。例子:
>>> df = df.repartition(npartitions=10) >>> df = df.repartition(divisions=[0, 5, 10, 20]) >>> df = df.repartition(freq='7d')
相关用法
- Python dask.dataframe.DataFrame.replace用法及代码示例
- Python dask.dataframe.DataFrame.resample用法及代码示例
- Python dask.dataframe.DataFrame.rename用法及代码示例
- Python dask.dataframe.DataFrame.round用法及代码示例
- Python dask.dataframe.DataFrame.rmul用法及代码示例
- Python dask.dataframe.DataFrame.rmod用法及代码示例
- Python dask.dataframe.DataFrame.rfloordiv用法及代码示例
- Python dask.dataframe.DataFrame.radd用法及代码示例
- Python dask.dataframe.DataFrame.rpow用法及代码示例
- Python dask.dataframe.DataFrame.random_split用法及代码示例
- Python dask.dataframe.DataFrame.rtruediv用法及代码示例
- Python dask.dataframe.DataFrame.rdiv用法及代码示例
- Python dask.dataframe.DataFrame.rsub用法及代码示例
- Python dask.dataframe.DataFrame.applymap用法及代码示例
- Python dask.dataframe.DataFrame.sub用法及代码示例
- Python dask.dataframe.DataFrame.mod用法及代码示例
- Python dask.dataframe.DataFrame.cummin用法及代码示例
- Python dask.dataframe.DataFrame.truediv用法及代码示例
- Python dask.dataframe.DataFrame.ne用法及代码示例
- Python dask.dataframe.DataFrame.partitions用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.repartition。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。