用法:
DataFrame.shuffle(on, npartitions=None, max_branch=None, shuffle=None, ignore_index=False, compute=None)
将 DataFrame 重新排列到新的分区中
使用
on
的散列将行映射到输出分区。此操作后,具有相同on
值的行将位于同一分区中。- on:str,str 列表,或 Series、Index 或 DataFrame
用于将行映射到输出分区的列或索引
- npartitions:整数,可选
输出的分区数。默认情况下不会更改分区数。
- max_branch: int, optional:
每个输入分区的最大拆分数。在分阶段洗牌算法中使用。
- shuffle: {‘disk’, ‘tasks’}, optional:
'disk'
用于single-node 操作或'tasks'
用于分布式操作。将由您当前的调度程序推断。- ignore_index: bool, default False:
在Shuffle[洗牌]期间忽略索引。如果
True
,性能可能会提高,但不会保留索引值。- compute: bool:
是否触发立即计算。默认为假。
参数:
注意:
这不会保留有意义的索引/分区方案。如果并行完成,这不是确定性的。
例子:
>>> df = df.shuffle(df.columns[0])
相关用法
- Python dask.dataframe.DataFrame.shape用法及代码示例
- Python dask.dataframe.DataFrame.sub用法及代码示例
- Python dask.dataframe.DataFrame.std用法及代码示例
- Python dask.dataframe.DataFrame.set_index用法及代码示例
- Python dask.dataframe.DataFrame.sum用法及代码示例
- Python dask.dataframe.DataFrame.select_dtypes用法及代码示例
- Python dask.dataframe.DataFrame.squeeze用法及代码示例
- Python dask.dataframe.DataFrame.sort_values用法及代码示例
- Python dask.dataframe.DataFrame.applymap用法及代码示例
- Python dask.dataframe.DataFrame.mod用法及代码示例
- Python dask.dataframe.DataFrame.cummin用法及代码示例
- Python dask.dataframe.DataFrame.truediv用法及代码示例
- Python dask.dataframe.DataFrame.round用法及代码示例
- Python dask.dataframe.DataFrame.ne用法及代码示例
- Python dask.dataframe.DataFrame.partitions用法及代码示例
- Python dask.dataframe.DataFrame.to_bag用法及代码示例
- Python dask.dataframe.DataFrame.any用法及代码示例
- Python dask.dataframe.DataFrame.itertuples用法及代码示例
- Python dask.dataframe.DataFrame.count用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.shuffle。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。