dask.bag.Bag.join

dask.bag.Bag.join

Bag.join(other, on_self, on_other=None)[源代码]

将集合与另一个集合连接。

其他集合必须是以下之一:

  1. 一个可迭代对象。出于内部性能的考虑,我们推荐使用元组而非列表。

  2. 一个指向元组的延迟对象。如果另一个集合很大并且你使用的是分布式调度器,建议使用此方法。Dask能够更复杂地传递包装在延迟对象中的数据。

  3. 一个带有单个分区的包

您可能还会考虑 Dask Dataframe,其连接操作得到了更大幅度的优化。

参数
其他: 可迭代对象, 延迟计算, 包

其他要连接的集合

on_self: 可调用对象

在此集合中调用以确定匹配的函数

on_other: 可调用对象 (默认为 on_self)

在另一个集合中的元素上调用的函数,以确定匹配项

示例

>>> import dask.bag as db
>>> people = db.from_sequence(['Alice', 'Bob', 'Charlie'])
>>> fruit = ['Apple', 'Apricot', 'Banana']
>>> list(people.join(fruit, lambda x: x[0]))
[('Apple', 'Alice'), ('Apricot', 'Alice'), ('Banana', 'Bob')]