当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.bag.Bag.join用法及代码示例


用法:

Bag.join(other, on_self, on_other=None)

将集合与另一个集合连接。

其他集合必须是以下之一:

  1. 一个可迭代的。出于内部性能原因,我们建议使用元组而不是列表。

  2. 一个延迟的对象,指向一个元组。如果其他集合相当大并且您正在使用分布式调度程序,则建议这样做。 Dask 能够以更复杂的方式传递包在延迟对象中的数据。

  3. 单分区包

您还可以考虑 Dask Dataframe,它的连接操作得到了更严格的优化。

参数

other: Iterable, Delayed, Bag

要加入的其他集合

on_self: callable

调用此集合中的元素以确定匹配的函数

on_other: callable (defaults to on_self)

调用另一个集合中的元素以确定匹配的函数

例子

>>> import dask.bag as db
>>> people = db.from_sequence(['Alice', 'Bob', 'Charlie'])
>>> fruit = ['Apple', 'Apricot', 'Banana']
>>> list(people.join(fruit, lambda x: x[0]))
[('Apple', 'Alice'), ('Apricot', 'Alice'), ('Banana', 'Bob')]

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.Bag.join。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。