當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python dask.bag.Bag.groupby用法及代碼示例


用法:

Bag.groupby(grouper, method=None, npartitions=None, blocksize=1048576, max_branch=None, shuffle=None)

按鍵函數分組集合

這需要完整的數據集讀取、序列化和洗牌。這是昂貴的。如果可能,您應該使用 foldby

參數

grouper: function

對元素進行分組的函數

shuffle: str

‘disk’ 用於on-disk shuffle 或‘tasks’ 以使用任務調度框架。如果您在單台機器上,請使用‘disk’;如果您在分布式集群上,請使用‘tasks’。

npartitions: int

如果使用基於磁盤的 shuffle,輸出分區的數量

blocksize: int

如果使用基於磁盤的 shuffle,則 shuffle 塊的大小(字節)

max_branch: int

如果使用基於任務的 shuffle,每個分區所經曆的拆分量。增加這個以減少副本但增加調度程序開銷。

例子

>>> import dask.bag as db
>>> b = db.from_sequence(range(10))
>>> iseven = lambda x: x % 2 == 0
>>> dict(b.groupby(iseven))             
{True: [0, 2, 4, 6, 8], False: [1, 3, 5, 7, 9]}

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bag.Bag.groupby。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。