dask.bag.from_sequence

dask.bag.from_sequence

dask.bag.from_sequence(seq, partition_size=None, npartitions=None)[源代码]

从 Python 序列创建一个 dask Bag。

这个序列在内存中应该相对较小。Dask Bag 在自行处理数据加载时效果最佳。通常,我们将一系列文件名加载到 Bag 中,然后使用 .map 打开它们。

参数
seq: 可迭代对象

要放入 dask 的元素序列

partition_size: int (可选)

每个分区的长度

npartitions: int (可选)

所需的分区数量

最好提供 ``partition_size`` 或 ``npartitions`` 中的一个
(但不能同时使用。)

参见

read_text

从文本文件创建包

示例

>>> import dask.bag as db
>>> b = db.from_sequence(['Alice', 'Bob', 'Chuck'], partition_size=2)