dask.bag.Bag.join
dask.bag.Bag.join¶
- Bag.join(other, on_self, on_other=None)[源代码]¶
将集合与另一个集合连接。
其他集合必须是以下之一:
一个可迭代对象。出于内部性能的考虑,我们推荐使用元组而非列表。
一个指向元组的延迟对象。如果另一个集合很大并且你使用的是分布式调度器,建议使用此方法。Dask能够更复杂地传递包装在延迟对象中的数据。
一个带有单个分区的包
您可能还会考虑 Dask Dataframe,其连接操作得到了更大幅度的优化。
- 参数
- 其他: 可迭代对象, 延迟计算, 包
其他要连接的集合
- on_self: 可调用对象
在此集合中调用以确定匹配的函数
- on_other: 可调用对象 (默认为 on_self)
在另一个集合中的元素上调用的函数,以确定匹配项
示例
>>> import dask.bag as db >>> people = db.from_sequence(['Alice', 'Bob', 'Charlie']) >>> fruit = ['Apple', 'Apricot', 'Banana'] >>> list(people.join(fruit, lambda x: x[0])) [('Apple', 'Alice'), ('Apricot', 'Alice'), ('Banana', 'Bob')]