用法:
Bag.join(other, on_self, on_other=None)
将集合与另一个集合连接。
其他集合必须是以下之一:
一个可迭代的。出于内部性能原因,我们建议使用元组而不是列表。
一个延迟的对象,指向一个元组。如果其他集合相当大并且您正在使用分布式调度程序,则建议这样做。 Dask 能够以更复杂的方式传递包在延迟对象中的数据。
单分区包
您还可以考虑 Dask Dataframe,它的连接操作得到了更严格的优化。
- other: Iterable, Delayed, Bag:
要加入的其他集合
- on_self: callable:
调用此集合中的元素以确定匹配的函数
- on_other: callable (defaults to on_self):
调用另一个集合中的元素以确定匹配的函数
参数:
例子:
>>> import dask.bag as db >>> people = db.from_sequence(['Alice', 'Bob', 'Charlie']) >>> fruit = ['Apple', 'Apricot', 'Banana'] >>> list(people.join(fruit, lambda x: x[0])) [('Apple', 'Alice'), ('Apricot', 'Alice'), ('Banana', 'Bob')]
相关用法
- Python dask.bag.Bag.frequencies用法及代码示例
- Python dask.bag.Bag.to_textfiles用法及代码示例
- Python dask.bag.Bag.repartition用法及代码示例
- Python dask.bag.Bag.accumulate用法及代码示例
- Python dask.bag.Bag.fold用法及代码示例
- Python dask.bag.Bag.map_partitions用法及代码示例
- Python dask.bag.Bag.groupby用法及代码示例
- Python dask.bag.Bag.reduction用法及代码示例
- Python dask.bag.Bag.foldby用法及代码示例
- Python dask.bag.Bag.flatten用法及代码示例
- Python dask.bag.Bag.remove用法及代码示例
- Python dask.bag.Bag.random_sample用法及代码示例
- Python dask.bag.Bag.distinct用法及代码示例
- Python dask.bag.Bag.topk用法及代码示例
- Python dask.bag.Bag.any用法及代码示例
- Python dask.bag.Bag.pluck用法及代码示例
- Python dask.bag.Bag.filter用法及代码示例
- Python dask.bag.Bag.to_avro用法及代码示例
- Python dask.bag.Bag.map用法及代码示例
- Python dask.bag.Bag.count用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.Bag.join。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。