当前位置: 首页>>编程示例 >>用法及示例精选 >>正文


Python dask.bag.zip用法及代码示例

用法:

dask.bag.zip(*bags)

Partition-wise 包拉链

所有通过的袋子必须有相同数量的分区。

注意:对应的分区应该有相同的长度;如果不这样做,来自较长分区的“extra” 元素将被删除。如果您遇到这种情况,您真正需要的是像 pandas 那样的数据对齐机制,而不是像 zip_longest 这样的缺失值填充器。

例子

正确用法:

>>> import dask.bag as db
>>> evens = db.from_sequence(range(0, 10, 2), partition_size=4)
>>> odds = db.from_sequence(range(1, 10, 2), partition_size=4)
>>> pairs = db.zip(evens, odds)
>>> list(pairs)
[(0, 1), (2, 3), (4, 5), (6, 7), (8, 9)]

错误用法:

>>> numbers = db.range(31, npartitions=1)
>>> fizz = numbers.filter(lambda n: n % 3 == 0)
>>> buzz = numbers.filter(lambda n: n % 5 == 0)
>>> fizzbuzz = db.zip(fizz, buzz)
>>> list(fizzbuzz)
[(0, 0), (3, 5), (6, 10), (9, 15), (12, 20), (15, 25), (18, 30)]

当您真正想要的更多是以下内容时:

>>> list(fizzbuzz) 
(0, 0), (3, None), (None, 5), (6, None), (9, None), (None, 10),
(12, None), (15, 15), (18, None), (None, 20),
(21, None), (24, None), (None, 25), (27, None), (30, 30)

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.zip。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。