dask.dataframe.DataFrame.persist
dask.dataframe.DataFrame.persist¶
- DataFrame.persist(**kwargs)¶
将此 dask 集合持久化到内存中
这将一个懒惰的 Dask 集合转换为一个具有相同元数据的 Dask 集合,但现在结果已完全计算或在后台主动计算。
函数的操作方式在很大程度上取决于活动的任务调度器。如果任务调度器支持异步计算,例如 dask.distributed 调度器的情况,那么 persist 将 立即 返回,并且返回值的任务图中将包含 Dask Future 对象。然而,如果任务调度器仅支持阻塞计算,那么对 persist 的调用将 阻塞,并且返回值的任务图中将包含具体的 Python 结果。
在使用分布式系统时,此功能特别有用,因为结果将保存在分布式内存中,而不是像使用 compute 那样返回到本地进程。
- 参数
- 调度器字符串,可选
使用哪种调度器,如“线程”、“同步”或“进程”。如果没有提供,默认首先检查全局设置,然后回退到集合的默认设置。
- 优化图bool, 可选
如果为 True [默认],图表在计算前会被优化。否则,图表将按原样运行。这对于调试很有用。
- **kwargs
传递给调度器函数的额外关键字参数。
- 返回
- 新的 dask 集合由内存数据支持
参见