用法:
Bag.groupby(grouper, method=None, npartitions=None, blocksize=1048576, max_branch=None, shuffle=None)
按键函数分组集合
这需要完整的数据集读取、序列化和洗牌。这是昂贵的。如果可能,您应该使用
foldby
。- grouper: function:
对元素进行分组的函数
- shuffle: str:
‘disk’ 用于on-disk shuffle 或‘tasks’ 以使用任务调度框架。如果您在单台机器上,请使用‘disk’;如果您在分布式集群上,请使用‘tasks’。
- npartitions: int:
如果使用基于磁盘的 shuffle,输出分区的数量
- blocksize: int:
如果使用基于磁盘的 shuffle,则 shuffle 块的大小(字节)
- max_branch: int:
如果使用基于任务的 shuffle,每个分区所经历的拆分量。增加这个以减少副本但增加调度程序开销。
参数:
例子:
>>> import dask.bag as db >>> b = db.from_sequence(range(10)) >>> iseven = lambda x: x % 2 == 0 >>> dict(b.groupby(iseven)) {True: [0, 2, 4, 6, 8], False: [1, 3, 5, 7, 9]}
相关用法
- Python dask.bag.Bag.frequencies用法及代码示例
- Python dask.bag.Bag.to_textfiles用法及代码示例
- Python dask.bag.Bag.repartition用法及代码示例
- Python dask.bag.Bag.join用法及代码示例
- Python dask.bag.Bag.accumulate用法及代码示例
- Python dask.bag.Bag.fold用法及代码示例
- Python dask.bag.Bag.map_partitions用法及代码示例
- Python dask.bag.Bag.reduction用法及代码示例
- Python dask.bag.Bag.foldby用法及代码示例
- Python dask.bag.Bag.flatten用法及代码示例
- Python dask.bag.Bag.remove用法及代码示例
- Python dask.bag.Bag.random_sample用法及代码示例
- Python dask.bag.Bag.distinct用法及代码示例
- Python dask.bag.Bag.topk用法及代码示例
- Python dask.bag.Bag.any用法及代码示例
- Python dask.bag.Bag.pluck用法及代码示例
- Python dask.bag.Bag.filter用法及代码示例
- Python dask.bag.Bag.to_avro用法及代码示例
- Python dask.bag.Bag.map用法及代码示例
- Python dask.bag.Bag.count用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.Bag.groupby。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。