dask_expr._collection.DataFrame.divisions

dask_expr._collection.DataFrame.divisions

property DataFrame.divisions

npartitions + 1 值的元组,按升序排列,标记每个分区索引的下限/上限。分区允许 Dask 知道哪个分区将包含给定值,显著加快 locmergegroupby 等操作的速度,因为不需要搜索整个数据集。

示例:对于 divisions = (0, 10, 50, 100),有三个分区,每个分区的索引分别包含值 [0, 10)、[10, 50) 和 [50, 100]。因此,Dask 知道 df.loc[45] 将在第二个分区中。

divisions 中的每一项都是 None 时,分区是未知的。大多数操作仍然可以执行,但有些操作会慢得多,少数操作可能会失败。

不支持直接设置 divisions 。相反,请使用 set_index ,它会根据需要对数据进行排序和分割。参见 http://www.aidoczh.com/dask/dataframe-design.html#partitions