dask.dataframe.DataFrame.persist

dask.dataframe.DataFrame.persist

DataFrame.persist(**kwargs)

将此 dask 集合持久化到内存中

这将一个懒惰的 Dask 集合转换为一个具有相同元数据的 Dask 集合,但现在结果已完全计算或在后台主动计算。

函数的操作方式在很大程度上取决于活动的任务调度器。如果任务调度器支持异步计算,例如 dask.distributed 调度器的情况,那么 persist 将 立即 返回,并且返回值的任务图中将包含 Dask Future 对象。然而,如果任务调度器仅支持阻塞计算,那么对 persist 的调用将 阻塞,并且返回值的任务图中将包含具体的 Python 结果。

在使用分布式系统时,此功能特别有用,因为结果将保存在分布式内存中,而不是像使用 compute 那样返回到本地进程。

参数
调度器字符串,可选

使用哪种调度器,如“线程”、“同步”或“进程”。如果没有提供,默认首先检查全局设置,然后回退到集合的默认设置。

优化图bool, 可选

如果为 True [默认],图表在计算前会被优化。否则,图表将按原样运行。这对于调试很有用。

**kwargs

传递给调度器函数的额外关键字参数。

返回
新的 dask 集合由内存数据支持

参见

dask.persist