用法:
Bag.join(other, on_self, on_other=None)
將集合與另一個集合連接。
其他集合必須是以下之一:
一個可迭代的。出於內部性能原因,我們建議使用元組而不是列表。
一個延遲的對象,指向一個元組。如果其他集合相當大並且您正在使用分布式調度程序,則建議這樣做。 Dask 能夠以更複雜的方式傳遞包在延遲對象中的數據。
單分區包
您還可以考慮 Dask Dataframe,它的連接操作得到了更嚴格的優化。
- other: Iterable, Delayed, Bag:
要加入的其他集合
- on_self: callable:
調用此集合中的元素以確定匹配的函數
- on_other: callable (defaults to on_self):
調用另一個集合中的元素以確定匹配的函數
參數:
例子:
>>> import dask.bag as db >>> people = db.from_sequence(['Alice', 'Bob', 'Charlie']) >>> fruit = ['Apple', 'Apricot', 'Banana'] >>> list(people.join(fruit, lambda x: x[0])) [('Apple', 'Alice'), ('Apricot', 'Alice'), ('Banana', 'Bob')]
相關用法
- Python dask.bag.Bag.frequencies用法及代碼示例
- Python dask.bag.Bag.to_textfiles用法及代碼示例
- Python dask.bag.Bag.repartition用法及代碼示例
- Python dask.bag.Bag.accumulate用法及代碼示例
- Python dask.bag.Bag.fold用法及代碼示例
- Python dask.bag.Bag.map_partitions用法及代碼示例
- Python dask.bag.Bag.groupby用法及代碼示例
- Python dask.bag.Bag.reduction用法及代碼示例
- Python dask.bag.Bag.foldby用法及代碼示例
- Python dask.bag.Bag.flatten用法及代碼示例
- Python dask.bag.Bag.remove用法及代碼示例
- Python dask.bag.Bag.random_sample用法及代碼示例
- Python dask.bag.Bag.distinct用法及代碼示例
- Python dask.bag.Bag.topk用法及代碼示例
- Python dask.bag.Bag.any用法及代碼示例
- Python dask.bag.Bag.pluck用法及代碼示例
- Python dask.bag.Bag.filter用法及代碼示例
- Python dask.bag.Bag.to_avro用法及代碼示例
- Python dask.bag.Bag.map用法及代碼示例
- Python dask.bag.Bag.count用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bag.Bag.join。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。