API

创建包

from_sequence(seq[, partition_size, npartitions])

从 Python 序列创建一个 dask Bag。

from_delayed(values)

从多个 dask Delayed 对象创建 bag。

from_url(urls)

从URL创建一个dask Bag。

range(n, npartitions)

从零到 n 的数字

read_text(urlpath[, blocksize, compression, ...])

从文本文件中读取行

read_avro(urlpath[, blocksize, ...])

读取一组 avro 文件

从数据框

DataFrame.to_bag([index, format])

从 Dask DataFrame 创建 Dask Bag

Series.to_bag([index, format])

从 Series 创建一个 Dask Bag

顶级函数

concat(bags)

将许多袋子连接在一起,联合所有元素。

map(func, *args, **kwargs)

将一个函数逐元素应用于一个或多个包。

map_partitions(func, *args, **kwargs)

将一个函数应用于一个或多个包中的每个分区。

to_textfiles(b, path[, name_function, ...])

将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。

zip(*bags)

按分区方式的袋装压缩

随机抽样

random.choices(population[, k, split_every])

返回一个包含替换选择的 k 个元素的列表。

random.sample(population, k[, split_every])

从袋子中选择k个独特的随机元素。

将包变成其他东西

Bag.to_textfiles(path[, name_function, ...])

将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。

Bag.to_dataframe([meta, columns, optimize_graph])

从 Dask Bag 创建 Dask Dataframe。

Bag.to_delayed([optimize_graph])

转换为一个 dask.delayed 对象列表,每个分区一个。

Bag.to_avro(filename, schema[, ...])

将数据包写入一组 Avro 文件

Bag 方法

Bag(dsk, name, npartitions)

Python 对象的并行集合

Bag.accumulate(binop[, initial])

对序列重复应用二元函数,累积结果。

Bag.all([split_every])

所有元素都是真值吗?

Bag.any([split_every])

这些元素中有任何一个是真值吗?

Bag.compute(**kwargs)

计算这个 dask 集合

Bag.count([split_every])

计算元素的数量。

Bag.distinct([key])

集合中的不同元素

Bag.filter(predicate)

根据谓词函数过滤集合中的元素。

Bag.flatten()

将嵌套列表连接成一个长列表。

Bag.fold(binop[, combine, initial, ...])

可并行化归约

Bag.foldby(key, binop[, initial, combine, ...])

组合的归约和分组。

Bag.frequencies([split_every, sort])

统计每个不同元素的出现次数。

Bag.groupby(grouper[, method, npartitions, ...])

按键函数分组集合

Bag.join(other, on_self[, on_other])

将集合与另一个集合连接。

Bag.map(func, *args, **kwargs)

将一个函数逐元素应用于一个或多个包。

Bag.map_partitions(func, *args, **kwargs)

将一个函数应用于一个或多个包中的每个分区。

Bag.max([split_every])

最大元素

Bag.mean()

算术平均数

Bag.min([split_every])

最小元素

Bag.persist(**kwargs)

将此 dask 集合持久化到内存中

Bag.pluck(key[, default])

从集合中的所有元组/字典中选择项目。

Bag.product(other)

两个包之间的笛卡尔积。

Bag.reduction(perpartition, aggregate[, ...])

使用归约运算符减少集合。

Bag.random_sample(prob[, random_state])

prob 的概率从袋子中返回元素。

Bag.remove(predicate)

移除集合中符合谓词的元素。

Bag.repartition([npartitions, partition_size])

在新分区中重新分配袋子。

Bag.starmap(func, **kwargs)

使用给定包中的参数元组应用函数。

Bag.std([ddof])

标准差

Bag.sum([split_every])

求和所有元素

Bag.take(k[, npartitions, compute, warn])

取前 k 个元素。

Bag.to_avro(filename, schema[, ...])

将数据包写入一组 Avro 文件

Bag.to_dataframe([meta, columns, optimize_graph])

从 Dask Bag 创建 Dask Dataframe。

Bag.to_delayed([optimize_graph])

转换为一个 dask.delayed 对象列表,每个分区一个。

Bag.to_textfiles(path[, name_function, ...])

将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。

Bag.topk(k[, key, split_every])

集合中的 K 个最大元素

Bag.var([ddof])

方差

Bag.visualize([filename, format, optimize_graph])

使用 graphviz 渲染此对象任务图的计算。

项目方法

Item(dsk, key[, layer])

Item.apply(func)

Item.compute(**kwargs)

计算这个 dask 集合

Item.from_delayed(value)

从 dask.delayed 值创建包项。

Item.persist(**kwargs)

将此 dask 集合持久化到内存中

Item.to_delayed([optimize_graph])

转换为一个 dask.delayed 对象。

Item.visualize([filename, format, ...])

使用 graphviz 渲染此对象任务图的计算。