當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python dask.bag.Bag.join用法及代碼示例


用法:

Bag.join(other, on_self, on_other=None)

將集合與另一個集合連接。

其他集合必須是以下之一:

  1. 一個可迭代的。出於內部性能原因,我們建議使用元組而不是列表。

  2. 一個延遲的對象,指向一個元組。如果其他集合相當大並且您正在使用分布式調度程序,則建議這樣做。 Dask 能夠以更複雜的方式傳遞包在延遲對象中的數據。

  3. 單分區包

您還可以考慮 Dask Dataframe,它的連接操作得到了更嚴格的優化。

參數

other: Iterable, Delayed, Bag

要加入的其他集合

on_self: callable

調用此集合中的元素以確定匹配的函數

on_other: callable (defaults to on_self)

調用另一個集合中的元素以確定匹配的函數

例子

>>> import dask.bag as db
>>> people = db.from_sequence(['Alice', 'Bob', 'Charlie'])
>>> fruit = ['Apple', 'Apricot', 'Banana']
>>> list(people.join(fruit, lambda x: x[0]))
[('Apple', 'Alice'), ('Apricot', 'Alice'), ('Banana', 'Bob')]

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bag.Bag.join。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。