使用集合
使用集合¶
通常我们希望用 dask.delayed
做一些自定义工作(例如,对于复杂的数据导入),然后利用 dask.array
或 dask.dataframe
中的算法,之后再切换回自定义工作。为此,所有集合都支持 from_delayed
函数和 to_delayed
方法。
作为一个例子,考虑我们以Dask DataFrame不认识的自定义格式存储表格数据的情况。这种格式自然地被分成多个部分,并且我们有一个函数可以将一部分读取到Pandas DataFrame中。我们使用 dask.delayed
来延迟读取这些文件到Pandas DataFrames中,使用 dd.from_delayed
将这些部分包装成一个单独的Dask DataFrame,使用DataFrame中的复杂算法(groupby、join等),然后切换回 dask.delayed
将我们的结果保存回自定义格式:
import dask.dataframe as dd
from dask.delayed import delayed
from my_custom_library import load, save
filenames = ...
dfs = [delayed(load)(fn) for fn in filenames]
df = dd.from_delayed(dfs)
df = ... # do work with dask.dataframe
dfs = df.to_delayed()
writes = [delayed(save)(df, fn) for df, fn in zip(dfs, filenames)]
dd.compute(*writes)
数据科学通常很复杂,而 dask.delayed
为用户提供了一个释放阀,让他们能够自行管理这种复杂性,并为自定义格式和复杂情况解决最后一英里问题。