用法:
Bag.groupby(grouper, method=None, npartitions=None, blocksize=1048576, max_branch=None, shuffle=None)
按鍵函數分組集合
這需要完整的數據集讀取、序列化和洗牌。這是昂貴的。如果可能,您應該使用
foldby
。- grouper: function:
對元素進行分組的函數
- shuffle: str:
‘disk’ 用於on-disk shuffle 或‘tasks’ 以使用任務調度框架。如果您在單台機器上,請使用‘disk’;如果您在分布式集群上,請使用‘tasks’。
- npartitions: int:
如果使用基於磁盤的 shuffle,輸出分區的數量
- blocksize: int:
如果使用基於磁盤的 shuffle,則 shuffle 塊的大小(字節)
- max_branch: int:
如果使用基於任務的 shuffle,每個分區所經曆的拆分量。增加這個以減少副本但增加調度程序開銷。
參數:
例子:
>>> import dask.bag as db >>> b = db.from_sequence(range(10)) >>> iseven = lambda x: x % 2 == 0 >>> dict(b.groupby(iseven)) {True: [0, 2, 4, 6, 8], False: [1, 3, 5, 7, 9]}
相關用法
- Python dask.bag.Bag.frequencies用法及代碼示例
- Python dask.bag.Bag.to_textfiles用法及代碼示例
- Python dask.bag.Bag.repartition用法及代碼示例
- Python dask.bag.Bag.join用法及代碼示例
- Python dask.bag.Bag.accumulate用法及代碼示例
- Python dask.bag.Bag.fold用法及代碼示例
- Python dask.bag.Bag.map_partitions用法及代碼示例
- Python dask.bag.Bag.reduction用法及代碼示例
- Python dask.bag.Bag.foldby用法及代碼示例
- Python dask.bag.Bag.flatten用法及代碼示例
- Python dask.bag.Bag.remove用法及代碼示例
- Python dask.bag.Bag.random_sample用法及代碼示例
- Python dask.bag.Bag.distinct用法及代碼示例
- Python dask.bag.Bag.topk用法及代碼示例
- Python dask.bag.Bag.any用法及代碼示例
- Python dask.bag.Bag.pluck用法及代碼示例
- Python dask.bag.Bag.filter用法及代碼示例
- Python dask.bag.Bag.to_avro用法及代碼示例
- Python dask.bag.Bag.map用法及代碼示例
- Python dask.bag.Bag.count用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bag.Bag.groupby。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。