dask_expr._collection.DataFrame.divisions
dask_expr._collection.DataFrame.divisions¶
- property DataFrame.divisions¶
npartitions + 1
值的元组,按升序排列,标记每个分区索引的下限/上限。分区允许 Dask 知道哪个分区将包含给定值,显著加快 loc、merge 和 groupby 等操作的速度,因为不需要搜索整个数据集。示例:对于
divisions = (0, 10, 50, 100)
,有三个分区,每个分区的索引分别包含值 [0, 10)、[10, 50) 和 [50, 100]。因此,Dask 知道df.loc[45]
将在第二个分区中。当
divisions
中的每一项都是None
时,分区是未知的。大多数操作仍然可以执行,但有些操作会慢得多,少数操作可能会失败。不支持直接设置
divisions
。相反,请使用set_index
,它会根据需要对数据进行排序和分割。参见 http://www.aidoczh.com/dask/dataframe-design.html#partitions。