當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python dask.dataframe.DataFrame.repartition用法及代碼示例


用法:

DataFrame.repartition(divisions=None, npartitions=None, partition_size=None, freq=None, force=False)

沿新部門重新分區 DataFrame

參數

divisions列表,可選

要使用的分區列表。僅在未指定 npartitions 和 partition_size 時使用。為方便起見,如果給定一個整數,這將推遲到 npartitions,如果給定一個字符串,它將推遲到 partition_size(見下文)

npartitions整數,可選

輸出的分區數。僅在未指定 partition_size 時使用。

partition_size: int or string, optional

每個分區的最大內存字節數。使用數字或字符串,例如 5MB。如果指定了 npartitions 和 divisions 將被忽略。

警告

此關鍵字參數觸發計算以確定每個分區的內存大小,這可能很昂貴。

freqstr, pd.Timedelta

對時間序列數據進行分區的時間段,例如 '7D''12h'pd.Timedelta(hours=12) 。假設一個日期時間索引。

force布爾值,默認為 False

允許擴展現有的部門。如果為 False,則新分區的下限和上限必須與舊分區相同。

注意

應該指定 divisions , npartitions , partition_sizefreq 中的一個。如果不是這種情況,將引發 ValueError

例子

>>> df = df.repartition(npartitions=10)  
>>> df = df.repartition(divisions=[0, 5, 10, 20])  
>>> df = df.repartition(freq='7d')

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.DataFrame.repartition。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。