当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.bag.Bag.groupby用法及代码示例


用法:

Bag.groupby(grouper, method=None, npartitions=None, blocksize=1048576, max_branch=None, shuffle=None)

按键函数分组集合

这需要完整的数据集读取、序列化和洗牌。这是昂贵的。如果可能,您应该使用 foldby

参数

grouper: function

对元素进行分组的函数

shuffle: str

‘disk’ 用于on-disk shuffle 或‘tasks’ 以使用任务调度框架。如果您在单台机器上,请使用‘disk’;如果您在分布式集群上,请使用‘tasks’。

npartitions: int

如果使用基于磁盘的 shuffle,输出分区的数量

blocksize: int

如果使用基于磁盘的 shuffle,则 shuffle 块的大小(字节)

max_branch: int

如果使用基于任务的 shuffle,每个分区所经历的拆分量。增加这个以减少副本但增加调度程序开销。

例子

>>> import dask.bag as db
>>> b = db.from_sequence(range(10))
>>> iseven = lambda x: x % 2 == 0
>>> dict(b.groupby(iseven))             
{True: [0, 2, 4, 6, 8], False: [1, 3, 5, 7, 9]}

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.Bag.groupby。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。