當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python dask.dataframe.DataFrame.shuffle用法及代碼示例


用法:

DataFrame.shuffle(on, npartitions=None, max_branch=None, shuffle=None, ignore_index=False, compute=None)

將 DataFrame 重新排列到新的分區中

使用 on 的散列將行映射到輸出分區。此操作後,具有相同 on 值的行將位於同一分區中。

參數

onstr,str 列表,或 Series、Index 或 DataFrame

用於將行映射到輸出分區的列或索引

npartitions整數,可選

輸出的分區數。默認情況下不會更改分區數。

max_branch: int, optional

每個輸入分區的最大拆分數。在分階段洗牌算法中使用。

shuffle: {‘disk’, ‘tasks’}, optional

'disk' 用於single-node 操作或'tasks' 用於分布式操作。將由您當前的調度程序推斷。

ignore_index: bool, default False

在Shuffle[洗牌]期間忽略索引。如果 True ,性能可能會提高,但不會保留索引值。

compute: bool

是否觸發立即計算。默認為假。

注意

這不會保留有意義的索引/分區方案。如果並行完成,這不是確定性的。

例子

>>> df = df.shuffle(df.columns[0])

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.DataFrame.shuffle。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。