当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.dataframe.DataFrame.shuffle用法及代码示例


用法:

DataFrame.shuffle(on, npartitions=None, max_branch=None, shuffle=None, ignore_index=False, compute=None)

将 DataFrame 重新排列到新的分区中

使用 on 的散列将行映射到输出分区。此操作后,具有相同 on 值的行将位于同一分区中。

参数

onstr,str 列表,或 Series、Index 或 DataFrame

用于将行映射到输出分区的列或索引

npartitions整数,可选

输出的分区数。默认情况下不会更改分区数。

max_branch: int, optional

每个输入分区的最大拆分数。在分阶段洗牌算法中使用。

shuffle: {‘disk’, ‘tasks’}, optional

'disk' 用于single-node 操作或'tasks' 用于分布式操作。将由您当前的调度程序推断。

ignore_index: bool, default False

在Shuffle[洗牌]期间忽略索引。如果 True ,性能可能会提高,但不会保留索引值。

compute: bool

是否触发立即计算。默认为假。

注意

这不会保留有意义的索引/分区方案。如果并行完成,这不是确定性的。

例子

>>> df = df.shuffle(df.columns[0])

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.shuffle。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。