用法:
DataFrame.shuffle(on, npartitions=None, max_branch=None, shuffle=None, ignore_index=False, compute=None)
將 DataFrame 重新排列到新的分區中
使用
on
的散列將行映射到輸出分區。此操作後,具有相同on
值的行將位於同一分區中。- on:str,str 列表,或 Series、Index 或 DataFrame
用於將行映射到輸出分區的列或索引
- npartitions:整數,可選
輸出的分區數。默認情況下不會更改分區數。
- max_branch: int, optional:
每個輸入分區的最大拆分數。在分階段洗牌算法中使用。
- shuffle: {‘disk’, ‘tasks’}, optional:
'disk'
用於single-node 操作或'tasks'
用於分布式操作。將由您當前的調度程序推斷。- ignore_index: bool, default False:
在Shuffle[洗牌]期間忽略索引。如果
True
,性能可能會提高,但不會保留索引值。- compute: bool:
是否觸發立即計算。默認為假。
參數:
注意:
這不會保留有意義的索引/分區方案。如果並行完成,這不是確定性的。
例子:
>>> df = df.shuffle(df.columns[0])
相關用法
- Python dask.dataframe.DataFrame.shape用法及代碼示例
- Python dask.dataframe.DataFrame.sub用法及代碼示例
- Python dask.dataframe.DataFrame.std用法及代碼示例
- Python dask.dataframe.DataFrame.set_index用法及代碼示例
- Python dask.dataframe.DataFrame.sum用法及代碼示例
- Python dask.dataframe.DataFrame.select_dtypes用法及代碼示例
- Python dask.dataframe.DataFrame.squeeze用法及代碼示例
- Python dask.dataframe.DataFrame.sort_values用法及代碼示例
- Python dask.dataframe.DataFrame.applymap用法及代碼示例
- Python dask.dataframe.DataFrame.mod用法及代碼示例
- Python dask.dataframe.DataFrame.cummin用法及代碼示例
- Python dask.dataframe.DataFrame.truediv用法及代碼示例
- Python dask.dataframe.DataFrame.round用法及代碼示例
- Python dask.dataframe.DataFrame.ne用法及代碼示例
- Python dask.dataframe.DataFrame.partitions用法及代碼示例
- Python dask.dataframe.DataFrame.to_bag用法及代碼示例
- Python dask.dataframe.DataFrame.any用法及代碼示例
- Python dask.dataframe.DataFrame.itertuples用法及代碼示例
- Python dask.dataframe.DataFrame.count用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.DataFrame.shuffle。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。