dask.bag.from_sequence
dask.bag.from_sequence¶
- dask.bag.from_sequence(seq, partition_size=None, npartitions=None)[源代码]¶
从 Python 序列创建一个 dask Bag。
这个序列在内存中应该相对较小。Dask Bag 在自行处理数据加载时效果最佳。通常,我们将一系列文件名加载到 Bag 中,然后使用
.map
打开它们。- 参数
- seq: 可迭代对象
要放入 dask 的元素序列
- partition_size: int (可选)
每个分区的长度
- npartitions: int (可选)
所需的分区数量
- 最好提供 ``partition_size`` 或 ``npartitions`` 中的一个
- (但不能同时使用。)
参见
read_text
从文本文件创建包
示例
>>> import dask.bag as db >>> b = db.from_sequence(['Alice', 'Bob', 'Chuck'], partition_size=2)