Python dask.dataframe.DataFrame.shuffle用法及代码示例

用法: DataFrame.shuffle(on, npartitions=None, max_branch=None, shuffle=None, ignore_index=False, compute=None)

将 DataFrame 重新排列到新的分区中

使用 on 的散列将行映射到输出分区。此操作后，具有相同 on 值的行将位于同一分区中。

on：str，str 列表，或 Series、Index 或 DataFrame: 用于将行映射到输出分区的列或索引
npartitions：整数，可选: 输出的分区数。默认情况下不会更改分区数。
max_branch: int, optional：: 每个输入分区的最大拆分数。在分阶段洗牌算法中使用。
shuffle: {‘disk’, ‘tasks’}, optional：: 'disk' 用于single-node 操作或'tasks' 用于分布式操作。将由您当前的调度程序推断。
ignore_index: bool, default False：: 在Shuffle[洗牌]期间忽略索引。如果 True ，性能可能会提高，但不会保留索引值。
compute: bool：: 是否触发立即计算。默认为假。

这不会保留有意义的索引/分区方案。如果并行完成，这不是确定性的。

>>> df = df.shuffle(df.columns[0])

相关用法

注：本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.shuffle。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。