API
内容
API¶
创建包¶
|
从 Python 序列创建一个 dask Bag。 |
|
从多个 dask Delayed 对象创建 bag。 |
|
从URL创建一个dask Bag。 |
|
从零到 n 的数字 |
|
从文本文件中读取行 |
|
读取一组 avro 文件 |
从数据框¶
|
从 Dask DataFrame 创建 Dask Bag |
|
从 Series 创建一个 Dask Bag |
顶级函数¶
|
将许多袋子连接在一起,联合所有元素。 |
|
将一个函数逐元素应用于一个或多个包。 |
|
将一个函数应用于一个或多个包中的每个分区。 |
|
将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
按分区方式的袋装压缩 |
随机抽样¶
|
返回一个包含替换选择的 k 个元素的列表。 |
|
从袋子中选择k个独特的随机元素。 |
将包变成其他东西¶
|
将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
从 Dask Bag 创建 Dask Dataframe。 |
|
转换为一个 |
|
将数据包写入一组 Avro 文件 |
Bag 方法¶
|
Python 对象的并行集合 |
|
对序列重复应用二元函数,累积结果。 |
|
所有元素都是真值吗? |
|
这些元素中有任何一个是真值吗? |
|
计算这个 dask 集合 |
|
计算元素的数量。 |
|
集合中的不同元素 |
|
根据谓词函数过滤集合中的元素。 |
将嵌套列表连接成一个长列表。 |
|
|
可并行化归约 |
|
组合的归约和分组。 |
|
统计每个不同元素的出现次数。 |
|
按键函数分组集合 |
|
将集合与另一个集合连接。 |
|
将一个函数逐元素应用于一个或多个包。 |
|
将一个函数应用于一个或多个包中的每个分区。 |
|
最大元素 |
|
算术平均数 |
|
最小元素 |
|
将此 dask 集合持久化到内存中 |
|
从集合中的所有元组/字典中选择项目。 |
|
两个包之间的笛卡尔积。 |
|
使用归约运算符减少集合。 |
|
以 |
|
移除集合中符合谓词的元素。 |
|
在新分区中重新分配袋子。 |
|
使用给定包中的参数元组应用函数。 |
|
标准差 |
|
求和所有元素 |
|
取前 k 个元素。 |
|
将数据包写入一组 Avro 文件 |
|
从 Dask Bag 创建 Dask Dataframe。 |
|
转换为一个 |
|
将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
集合中的 K 个最大元素 |
|
方差 |
|
使用 graphviz 渲染此对象任务图的计算。 |
项目方法¶
|
|
|
|
|
计算这个 dask 集合 |
|
从 dask.delayed 值创建包项。 |
|
将此 dask 集合持久化到内存中 |
|
转换为一个 |
|
使用 graphviz 渲染此对象任务图的计算。 |