更新日志

2024.9.0¶

亮点¶

将 Bokeh 最低版本提升至 3.1.0¶

bokeh>=3.1.0 现在是为诊断和分布式集群仪表板所必需的。

更多详情请参见 James Bourbeau 的 GH#11375 和 GH#8861。

介绍新的 Task 类¶

添加一个 Task 类来替代用于任务规范的元组。

详情请参阅 Florian Jetter 的 GH#11248。

其他更改

将 peter-evans/create-pull-request 从 6 升级到 7 (GH#11380)
减少 tokenize 的开销 (GH#11373) Florian Jetter
将 tokenize 移动到专用子模块 (GH#11371) Florian Jetter
确保 process_runnables 在存在多个分割时不至于过于急切 (GH#11367) Florian Jetter
在shuffle中使用 np.min_scalar_type (GH#11369) James Bourbeau
将索引数组写入dask图以减少多个xarray变量的大小（GH#11362） Patrick Hoefler
在洗牌中将索引器转换为最小的 dtype (GH#11364) Patrick Hoefler
减少 dask.order 的内存使用 (GH#11361) Florian Jetter
将 JamesIves/github-pages-deploy-action 从 4.6.3 升级到 4.6.4 (GH#11366)
precommit 自动更新 (GH#11360) Florian Jetter
均匀调度 P2P 的解包任务 (GH#8873) Hendrik Makait
为本地主机工作/修复防火墙 (GH#8868) Mario Linker
使用新的 tokenize 模块 (GH#8858) James Bourbeau
使用幂等插件警告指向用户代码 (GH#8856) James Bourbeau
修复测试保姆超时 (GH#8847) Florian Jetter
将 JamesIves/github-pages-deploy-action 从 4.5.0 升级到 4.6.4 (GH#8853)
通过仅对 func 和 kwargs 计算一次 token 来加速 Client.map (GH#8855) Florian Jetter
更新 pre-commit (GH#8852) Florian Jetter

2024.8.2¶

亮点¶

自动选择重新分块方法¶

为了使用户能够在比以前更大的规模上重新分块数据，Dask 现在在集群上重新分块时会自动选择适当的重新分块方法。这不需要额外的配置，并且默认启用。

具体来说，Dask 在基于任务和点对点（P2P）重新分块之间进行选择。虽然基于任务的重新分块一直是之前的默认选项，但当重新分块需要旧块和新块之间的几乎所有对所有通信时，P2P 重新分块是有益的，例如在空间和时间分块之间切换时。在这些情况下，P2P 重新分块提供恒定的内存使用，并创建更小的任务图。因此，它适用于基于任务的重新分块之前会失败的场景。

要禁用自动选择，用户可以通过配置选择他们偏好的方法。

import dask.config
# Choose either "tasks" or "p2p"
dask.config.set({"array.rechunk.method": "tasks"})

或在重新分块时

import dask.array as da
arr = da.random.random(size=(1000, 1000, 365), chunks=(-1, -1, "auto"))
# Choose either "tasks" or "p2p"
arr = arr.rechunk(("auto", "auto", -1), method="tasks")

更多详情请参见 Hendrik Makait 的 GH#11337。

Dask 数组的新洗牌 API¶

Dask 为 Dask Arrays 添加了一个 shuffle-API。此 API 允许沿单个维度对数据进行洗牌。它将确保沿此维度的每个元素组都恰好在一个块中。这对于 Xarray 中的 GroupBy-Map 模式是一个非常有用的操作。更多信息和 API 签名请参见 shuffle()。

更多详情请参见 GH#11267, GH#11311 和 GH#11326，由 Patrick Hoefler 提供。

Dask 数组的新的 blockwise_reshape API¶

新的 blockwise_reshape() 为那些不关心底层数组顺序的情况启用了令人尴尬的并行重塑操作。它是令人尴尬的并行，并且不再在底层触发重新分块操作。当你不关心结果数组的顺序时，这很有用，例如，如果对数组应用了归约操作，或者重塑只是暂时的。

arr = da.random.random(size=(100, 100, 48_000), chunks=(1000, 100, 83)
result = reshape_blockwise(arr, (10_000, 48_000))
result.sum()

# or: do something that preserves the shape of each chunk

result = reshape_blockwise(result, (100, 100, 48_000), chunks=arr.chunks)

如果维度数量减少，Dask 会自动计算结果块，但如果维度数量增加，则必须指定结果块。

重塑 Dask 数组通常会在中间进行重新分块操作，从而创建非常复杂的计算，因为 Dask 默认尊重数组的 C 顺序。这确保了生成的 Dask 数组与相应的 NumPy 数组顺序相同。然而，这可能导致非常低效的计算。如果你不关心顺序，blockwise_reshape 比默认实现要高效得多。

警告

块状重塑操作作为默认设置更高效，但它们将返回一个顺序不同的数组。请谨慎使用！

更多详情请参见 GH#11328 由 Patrick Hoefler 提供。

多维位置索引保持块大小一致¶

使用 vindex() 对 Dask 数组进行索引时，以前会在被索引的维度上创建一个单一的输出块。vindex 通常在 Xarray 中用于在单一步骤中索引多个维度，即：

arr = xr.DataArray(
    da.random.random((100, 100, 100), chunks=(5, 5, 50)),
    dims=['a', "b", "c"],
)

之前，这会将索引维度放入单个块中：

Dask 现在使用了一种改进的算法，确保块大小保持一致：

更多详情请参见 Patrick Hoefler 的 GH#11330。

2024.8.1¶

亮点¶

改进重塑Dask数组的输出块大小¶

重塑 Dask 数组时，通常会将维度压缩成一个单一的分块。这导致了非常大的输出分块，随后引发了许多内存溢出错误和性能问题。

arr = da.ones(shape=(1000, 100, 48_000), chunks=(1000, 100, 83))
arr.reshape(1000, 100, 4, 12_000)

之前，这会将最后一个维度放入一个大小为12,000的单个块中。

新算法将确保输入和输出之间的块大小保持一致。这将避免块大小的急剧增加和块的碎片化。

提高Xarray Rechunk-GroupBy-Reduce模式的调度效率¶

调度器之前为使用群体策略的 Xarray GroupBy-Reduction 模式创建了一个低效的执行图：

import xarray as xr

arr = xr.open_zarr(...)
arr.chunk(time=TimeResampler("ME")).groupby("time.month").mean()

任务图执行顺序算法中的一个问题导致了一种效率低下的执行策略，该策略在集群上积累了大量不必要的内存。改进与 2024.08.0 中的先前排序改进非常相似。

放弃对 Python 3.9 的支持¶

此版本根据 NEP 29 放弃了对 Python 3.9 的支持。现在，运行 Dask 所需的最低版本是 Python 3.10。

更多详情请参见 GH#11245 和 GH#8793 由 Patrick Hoefler 提供。

2024.8.0¶

亮点¶

通过位置索引器提高切片效率和性能¶

通过位置索引器对 Dask 数组进行切片时的性能改进。随机访问模式现在更加稳定，并产生更易于使用的输出结果。

x[slice(None), [1, 1, 3, 6, 3, 4, 5]]

使用位置索引器之前容易导致输出块的数量急剧增加，并生成非常大的任务图。这一问题已通过更高效的算法得到解决。

新的算法将保持沿被索引轴的块大小相同，以避免块的碎片化或块大小的显著增加。

更多详情和性能基准测试请参见 Patrick Hoefler 的 GH#11262 和 GH#11267。

提高 Xarray GroupBy-Reduce 模式的调度效率¶

调度器之前为 Xarray GroupBy-Reduction 模式创建了一个低效的执行图，例如：

import xarray as xr

arr = xr.open_zarr(...)
arr.groupby("time.month").mean()

任务图执行顺序算法中的一个问题导致了一种低效的执行策略，该策略在集群上积累了大量不必要的内存。

该操作本身是令人尴尬的并行。使用适当的执行策略，调度器现在可以以恒定的内存执行操作，避免溢出，并允许我们扩展到更大的数据集。

更多详情和示例请参见 Patrick Hoefler 的 GH#8818。

2024年7月1日¶

亮点¶

更强大的分布式锁¶

distributed.Lock 现在能够抵御工作节点故障。以前，在持有锁的工作节点丢失或因错误未能释放锁的情况下，可能会发生死锁。

更多详情请参见 Florian Jetter 的 GH#8770。

2024.7.0¶

亮点¶

放弃对 pandas 1.x 的支持¶

此版本放弃了对 pandas<2 的支持。pandas 2.0 现在是运行 Dask DataFrame 所需的最低版本。

partd 的最低版本也提升至 1.4.0。1.4 之前的版本与 pandas 2 不兼容。

更多详情请参见 Patrick Hoefler 的 GH#11199。

发布-订阅 API 已弃用¶

distributed.Pub 和 distributed.Sub 已被弃用，并将在未来的版本中移除。请改为使用 distributed.Client.log_event() 和 distributed.Worker.log_event()。

详情请参见 Hendrik Makait 的 GH#8724。

2024.6.2¶

这是一个补丁发布，用于更新2024.6.1版本中``dask``和``distributed``版本固定的问题。

2024.6.1¶

亮点¶

此版本包含一个关键修复，修复了当根任务的依赖项因工作节点丢失等原因被重新调度时可能出现的死锁问题。

更多详情请参见 Hendrik Makait 的 GH#8703。

2024.6.0¶

亮点¶

内存映射数组分词¶

现在，对 memmap 数组进行分词将避免将数组具体化到内存中。

更多详情请参见 Florian Jetter 的 GH#11161。

2024年5月2日¶

此版本主要包含一些小的错误修复。

2024年5月1日¶

亮点¶

NumPy 2.0 支持¶

此版本包含针对即将发布的 NumPy 2.0 版本的兼容性更新。

更多详情请参见 Benjamin Zaitlen 的 GH#11096 和 James Bourbeau 的 GH#11106。

增强的 Zarr 存储支持¶

此版本增加了对 MutableMapping 支持的 Zarr 存储，如 zarr.storage.DirectoryStore 等。

更多详情请参见 Greg M. Fleishman 的 GH#10422。

2024.5.0¶

亮点¶

此版本主要包含一些小的错误修复。

2024年4月2日¶

亮点¶

简单的合并实现¶

查询优化器将检查查询，以确定是否需要对 merge(...) 或 groupby(...).apply(...) 进行洗牌。如果在之前的步骤中，DataFrame 已经在相同的列上进行了洗牌，并且中间没有任何操作改变分区布局或每个分区中的相关值，则可以避免洗牌。

>>> result = df.merge(df2, on="a")
>>> result = result.merge(df3, on="a")

查询优化器将识别到``result``之前已经在``”a”``上进行了洗牌，因此在第二次合并操作中仅对``df3``进行洗牌，然后再进行块级合并。

`read_parquet` 中的自动分区¶

如果从 Parquet 文件读取的单个分区太小，查询优化器将自动重新分区数据集。这将减少分区数量，从而也减少了任务图的大小。

优化器旨在生成至少75MB的分区，并在必要时将多个文件合并以达到此阈值。该值可以通过使用进行配置。

>>> dask.config.set({"dataframe.parquet.minimum-partition-size": 100_000_000})

该值以字节为单位给出。默认阈值相对保守，以避免工作节点上每个线程的内存量相对较小时出现内存问题。

2024年4月1日¶

这是一个小型的错误修复版本，修复了在 Python 3.11.9 中导入 dask.dataframe 时的一个错误。

详情请参见 Richard (Rick) Zamora 的 GH#11035 和 GH#11039。

2024.4.0¶

亮点¶

查询计划修复¶

此版本包含Dask DataFrame新查询计划器中的各种错误修复。

GPU 指标仪表板修复¶

GPU 内存和利用率仪表盘功能已恢复。之前这些图表无意中被留空。

详情请参见 Benjamin Zaitlen 的 GH#8572。

2024年3月1日¶

这是一个小版本发布，主要是在升级时，如果未安装 dask-expr ，则将异常降级为警告。

2024.3.0¶

发布于2024年3月11日

亮点¶

查询规划¶

此版本默认启用了 dask.dataframe 所有用户的查询计划功能。

查询规划功能代表了使用 dask-expr 对 DataFrame 的重写。这是一个即插即用的替代方案，我们预计大多数用户不需要调整他们的代码。任何反馈可以在 Dask 的问题追踪器上报告，或者在查询规划反馈问题上提交。

如果你遇到任何问题，你仍然可以通过设置来选择退出。

>>> import dask
>>> dask.config.set({'dataframe.query-planning': False})

Pandas 1.X 支持的落日¶

新的查询规划后端至少需要 pandas 2.0 版本。如果你通过 conda 安装，或者使用 dask[complete] 或 dask[dataframe] 从 pip 安装，pandas 版本将自动安装。

如果你在没有额外安装的情况下安装 dask，遗留的 DataFrame 实现仍然支持 pandas 1.X。

其他更改

使用 dask-expr 更新 pandas 夜间测试 (GH#10989) Patrick Hoefler
使用 dask-expr 文档作为 DataFrame 的主要参考文档 (GH#10990) Patrick Hoefler
调整 dask-expr 的 from_array 测试 (GH#10988) Patrick Hoefler
取消跳过 to_delayed 测试 (GH#10985) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.3 (GH#10978)
修复启用 dask-expr 时的错误 (GH#10977) Patrick Hoefler
更新 dask-expr 的文档和需求并移除警告 (GH#10976) Patrick Hoefler
修复 numpy 2 与 ogrid 使用的兼容性 (GH#10929) David Hoese
打开 dask-expr 开关 (GH#10967) Patrick Hoefler
强制使用相同的字节顺序解释初始化随机种子… (GH#10970) Elliott Sales de Andrade
在读取CSV时使用正确的行终止符编码 (GH#10972) Elliott Sales de Andrade
perf: 在 _optimize_blockwise 中不要不必要地重新计算输入/输出索引 (GH#10966) Lindsey Gray
调整 dask-expr 中字符串选项的测试 (GH#10968) Patrick Hoefler
调整 dask-expr 中数组转换的测试 (GH#10973) Patrick Hoefler
TST: 修复32位上的sizeof测试 (GH#10971) Elliott Sales de Andrade
TST: 为 pyarrow 添加缺失的跳过 (GH#10969) Elliott Sales de Andrade
为 bag.to_dataframe 实现 dask-expr 转换 (GH#10963) Patrick Hoefler
修复 dask-expr 导入错误 (GH#10964) Miles
清理 dask.config 的 Sphinx 文档 (GH#10959) crusaderky
在 Python 3.12+ 上使用标准库 importlib.metadata (GH#10955) wim glenn
将 partitioning_index 转换为更小的尺寸 (GH#10953) Florian Jetter
重用 dask/dask 分组聚合 (GH#10952) Patrick Hoefler
确保期货上的代币是唯一的 (GH#8569) Florian Jetter
不要掩盖良好的性能指标失败 (GH#8568) crusaderky
在 dask-expr 中标记 shuffle 快速任务 (GH#8563) crusaderky
按持续时间衡量 Gilknocker Prometheus 指标 (GH#8558) crusaderky
修复 memory->erred 上的调度器转换错误 (GH#8549) Hendrik Makait
让 CI 再次快乐 (GH#8560) Miles
修复不稳定的 test_Future_release_sync (GH#8562) crusaderky
修复不稳定的 test_flaky_connect_recover_with_retry (GH#8556) Hendrik Makait
在 scheduler.py 中进行类型调整 (GH#8551) crusaderky
将 conda-incubator/setup-miniconda 从 3.0.2 升级到 3.0.3 (GH#8553)
在CI上安装dask-expr (GH#8552) Hendrik Makait
P2P shuffle 可以在写入磁盘之前删除分区列 (GH#8531) Hendrik Makait
改进工作器移除的日志记录 (GH#8517) crusaderky
添加指示器支持以进行合并 (GH#8539) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.2 (GH#8535)
获取模块路径时避免迭代错误 (GH#8533) James Bourbeau
在代码收集时忽略标准库的 threading 模块 (GH#8532) James Bourbeau
修复P2P重试时的过度日志记录 (GH#8511) Hendrik Makait
防止 retire_workers 参数中的拼写错误 (GH#8524) crusaderky
对 test_steal 进行美化清理（从 #8185 回溯） (GH#8509) crusaderky
修复不稳定的 test_compute_per_key (GH#8521) crusaderky
修复不稳定的 test_no_workers_timeout_queued (GH#8523) crusaderky

2024年2月1日¶

发布于2024年2月23日

亮点¶

允许静默 dask.DataFrame 弃用警告¶

上一个版本包含了一个 DeprecationWarning，它提醒用户即将切换 dask.dafaframe 以使用支持查询计划的新后端（另见 GH#10934）。

此 DeprecationWarning 在导入 dask.dataframe 模块时触发，社区对此过于冗长表示担忧。

现在可以静音此警告

# via Python
>>> dask.config.set({'dataframe.query-planning-warning': False})

# via CLI
dask config set dataframe.query-planning-warning False

详情请参见 Miles 的 GH#10936 和 GH#10925。

更强大的分布式调度器，用于处理罕见的关键冲突¶

块级融合优化可能会导致任务键冲突，该冲突未被分布式调度器正确处理（参见 GH#9888）。用户通常会通过看到导致系统死锁或严重故障的各种内部异常来注意到这一点。虽然此问题无法修复，但调度器现在实现了一种机制，该机制应能缓解大多数情况，并在检测到问题时发出警告。

详情请参见 crusaderky 和 Florian Jetter 的 GH#8185。

在这过程中，tokenization 已经实施了各种改进。详情请参见 GH#10913, GH#10884, GH#10919, GH#10896 以及主要来自 crusaderky 的 GH#10883。

在大规模集群上更强大的自适应缩放¶

自适应缩放在之前如果需要移动许多任务进行缩减时可能会丢失数据。这通常（但不限于）发生在大规模集群上，表现为任务的重新计算，并可能导致集群在扩展和缩减之间振荡而无法完成。

更多详情请参见 crusaderky 的 GH#8522。

2024.2.0¶

发布于2024年2月9日

亮点¶

弃用 Dask DataFrame 实现¶

当前的 Dask DataFrame 实现已被弃用。在未来的版本中，Dask DataFrame 将使用包含多项改进的新实现，包括逻辑查询计划。面向用户的 DataFrame API 将保持不变。

新的实现已经可用，可以通过安装 dask-expr 库来启用：

$ pip install dask-expr

并开启查询规划选项：

>>> import dask
>>> dask.config.set({'dataframe.query-planning': True})
>>> import dask.dataframe as dd

新实现的API文档可在 http://www.aidoczh.com/dask/en/stable/dataframe-api.html 获取

任何反馈都可以在 Dask 问题跟踪器 https://github.com/dask/dask/issues 上报告。

详情请参见 Patrick Hoefler 的 GH#10912。

改进的分词¶

此版本包含了对 Dask 对象令牌化逻辑的若干改进。现在更多对象生成确定性令牌，这可以通过缓存中间结果来提高性能。

详情请参见 crusaderky 的 GH#10898, GH#10904, GH#10876, GH#10874, 和 GH#10865。

其他更改

修复字符串转换中对只读数组的就地修改 (GH#10886) Patrick Hoefler
为 dask-expr 添加变更日志条目 (GH#10915) Patrick Hoefler
修复 cudf 的 leftsemi 合并 (GH#10914) Patrick Hoefler
对 dask-expr 警告的轻微更新 (GH#10916) James Bourbeau
改进 groupby.nunique 的性能 (GH#10910) Patrick Hoefler
在 dask-expr 中为 leftsemi 合并添加配置 (GH#10908) Patrick Hoefler
调整 dask-expr 的分配测试 (GH#10907) Patrick Hoefler
在GPU CI的 test_to_datetime 中避免使用 pytest.warns (GH#10902) Richard (Rick) Zamora
更新文档首页的部署选项 (GH#10901) James Bourbeau
修复数据框文档中的拼写错误 (GH#10900) Matthew Rocklin
将 peter-evans/create-pull-request 从 5 升级到 6 (GH#10894)
修复 mimesis API >=13.1.0 - 使用 random.randint (GH#10888) Miles
调整无效测试 (GH#10897) Patrick Hoefler
Pickle da.argwhere 和 da.count_nonzero (GH#10885) crusaderky
修复 dask-expr 测试后单例 pr (GH#10892) Patrick Hoefler
为 s3fs 设置下限版本 (GH#10889) Miles
为新的parquet缓存添加了几个``dask-expr``修复 (GH#10880) Florian Jetter
更新部署文档 (GH#10882) Matthew Rocklin
从 dask-expr 文档构建开始 (GH#10879) Patrick Hoefler
测试静态方法和类方法的标记化 (GH#10872) crusaderky
在API文档中添加 distributed.print 和 distributed.warn (GH#10878) James Bourbeau
在M1架构上运行macos ci (GH#10877) Patrick Hoefler
更新 dask-expr 的测试 (GH#10838) Patrick Hoefler
更新 parquet 测试以与 dask-expr 修复 (GH#10851) 保持一致 Richard (Rick) Zamora
修复 test_graph_manipulation 中的回归问题 (GH#10873) crusaderky
调整 pytest 错误以适应 dask-expr ci (GH#10871) Patrick Hoefler
当 pandas<2.1 时，为 numba 设置版本上限 (GH#10890) Miles
弃用 DataFrame.fillna 中的 method 参数 (GH#10846) Miles
从 pyproject.toml 中移除警告过滤器 (GH#10867) Patrick Hoefler
跳过 test_append_with_partition 以使用 fastparquet (GH#10828) Patrick Hoefler
修复 pytest 8 个问题 (GH#10868) Patrick Hoefler
调整 dask-expr 中 Groupby.aggregate 对中位数支持的测试 (2/2) (GH#10870) Hendrik Makait
在 sort_values 中允许升序的长度大于一 (GH#10864) Florian Jetter
允许在 Python 3.9 中引发其他消息 (GH#10862) Hendrik Makait
在病理情况下获取计算代码时不要崩溃 (GH#8502) James Bourbeau
将 peter-evans/create-pull-request 从 5 升级到 6 (GH#8494)
修复 cudf 溢出指标的测试 (GH#8478) Mads R. B. Kristensen
升级到 pytest 8 (GH#8482) crusaderky
修复 test_two_consecutive_clients_share_results (GH#8484) crusaderky
客户端单词混淆 (GH#8481) templiert

2024年1月1日¶

发布于2024年1月26日

亮点¶

Pandas 2.2 和 Scipy 1.12 支持¶

此版本包含针对最新 pandas 和 scipy 版本的兼容性更新。

详情请参见 crusaderky 的 GH#10834, GH#10849, GH#10845, 和 GH#8474。

弃用¶

在 apply 中弃用 convert_dtype (GH#10827) Miles
弃用 DataFrame.rolling 中的 axis (GH#10803) Miles
在大多数 DataFrame 方法中弃用 out= 和 dtype= 参数 (GH#10800) crusaderky
在 groupby 累积转换器中弃用 axis (GH#10796) Miles
在剩余的方法中将 shuffle 重命名为 shuffle_method (GH#10797) Miles

其他更改

将推荐的部署选项添加到部署文档中 (GH#10866) James Bourbeau
改进 _agg_finalize 以符合输出预期 (GH#10835) Hendrik Makait
为 hlg 实现确定性分词 (GH#10817) Patrick Hoefler
重构：将 tokenize() 的测试移至其自己的模块 (GH#10863) crusaderky
更新 DataFrame 示例部分 (GH#10856) James Bourbeau
暂时固定 mimesis<13.1.0 (GH#10860) James Bourbeau
对 _testing.py 进行了微小的外观调整（GH#10857） crusaderky
取消跳过并调整使用 dask-expr 的 groupby-聚合 median 的测试 (GH#10832) Hendrik Makait
在上游CI中修复 sizeof(pd.MultiIndex) 的测试 (GH#10850) crusaderky
numpy 2.0: 修复 uint64 数组的切片 (GH#10854) crusaderky
将 numpy 版本常量重命名为与 pandas 匹配 (GH#10843) crusaderky
将 actions/cache 从 3 升级到 4 (GH#10852)
将 gpuCI RAPIDS_VER 更新为 24.04 (GH#10841)
修复doctest中的弃用问题 (GH#10844) crusaderky
在 numpy 2.x 中更改了 dtype 算术 (GH#10831) crusaderky
调整 dask-expr 中 median 支持的测试 (GH#10839) Patrick Hoefler
调整 dask-expr 中 groupby-aggregate 对 median 支持的测试 (GH#10840) Hendrik Makait
numpy 2.x: 修复 MaskedArray 上的 std() (GH#10837) crusaderky
如果测试失败，则失败 dask-expr ci (GH#10829) Patrick Hoefler
在导出测试时激活 query_planning (GH#10833) Patrick Hoefler
公开数据框测试 (GH#10830) Patrick Hoefler
numpy 2: n 维 fft 函数中的弃用 (GH#10821) crusaderky
为 dask-expr 泛化 CreationDispatch (GH#10794) Richard (Rick) Zamora
在启用 dask-expr 时移除循环导入 (GH#10824) Miles
Minor[CI]: publish-test-results 未标记为失败 (GH#10825) Miles
修复更多测试以使用 pytest.warns() (GH#10818) Michał Górny
np.unique(): 逆向在 numpy 2 (GH#10819) crusaderky
将 test_split_adaptive_files 固定到 pyarrow 引擎 (GH#10820) Patrick Hoefler
调整 dask/dask 中的剩余测试 (GH#10813) Patrick Hoefler
仅限于 Arrow 的测试 (GH#10814) Patrick Hoefler
从 std 测试中过滤警告 (GH#10815) Patrick Hoefler
调整大部分索引测试 (GH#10790) Patrick Hoefler
部署文档更新 (GH#10778) Sarah Charlotte Johnson
解锁文档构建 (GH#10807) Miles
调整 test_to_datetime 以兼容 dask-expr Hendrik Makait
上游CI调整 (GH#10806) crusaderky
改进 to_numeric 的测试 (GH#10804) Hendrik Makait
修复测试报告缓存键缩进 (GH#10798) Miles
添加测试报告工作流程 (GH#10783) Miles
处理矩阵子类的序列化 (GH#8480) Florian Jetter
在P2P中使用最小的数据类型作为分区列 (GH#8479) Florian Jetter
pandas 2.2: 修复 test_dataframe_groupby_tasks (GH#8475) crusaderky
将 actions/cache 从 3 升级到 4 (GH#8477)
pandas 2.2 与 pyarrow 14: 已弃用 DatetimeTZBlock (GH#8476) crusaderky
pandas 2.2.0: 弃用频率别名 M 以支持 ME (GH#8473) Hendrik Makait
修复文档构建 (GH#8472) Hendrik Makait
修复基于P2P的连接与显式 npartitions (GH#8470) Hendrik Makait
在 test_report.py 脚本中忽略 dask-expr (GH#8464) Miles
Nit: 在测试报告环境中硬编码Python版本 (GH#8462) crusaderky
修改 test_report.py - 在 dask/dask 中跳过不良工件 (GH#8461) Miles
替换所有 sys.is_finalizing 的出现 (GH#8449) Florian Jetter

2024.1.0¶

发布于2024年1月12日

亮点¶

P2P 中的部分重新分块¶

P2P 重新分块现在利用了输入和输出块之间的关系。对于不需要全对全数据传输的情况，这可能会显著减少运行时间和内存/磁盘占用。它还支持任务剔除。

详情请参见 Hendrik Makait 的 GH#8330。

Fastparquet 引擎已弃用¶

fastparquet Parquet 引擎已被弃用。用户应通过安装 PyArrow 并移除 read_parquet 或 to_parquet 调用中的 engine="fastparquet" 来迁移到 pyarrow 引擎。

详情请参见 crusaderky 的 GH#10743。

改进了对任意数据的序列化¶

此版本改进了对任意数据的序列化鲁棒性。之前在某些情况下，序列化非 msgpack 可序列化的数据时可能会失败。现在在这些情况下，我们改为使用 pickle。

详情请参见 Hendrik Makait 的 GH#8447。

额外的弃用¶

弃用 shuffle 关键字，改为使用 shuffle_method 作为 DataFrame 方法 (GH#10738) Hendrik Makait
在 repartition 中弃用自动参数推断 (GH#10691) Patrick Hoefler
弃用 set_index 中的 compute 参数 (GH#10784) Miles
在 eval 中弃用 inplace (GH#10785) Miles
弃用 Series.view (GH#10754) Miles
弃用 set_index 和 sort_values 的 npartitions="auto" (GH#10750) Miles

其他更改

避免在任务洗牌中使用导致数据丢失的快捷方式 (GH#10763) Patrick Hoefler
在排序时忽略数据任务 (GH#10706) Florian Jetter
从 dask-expr 添加 get_dummies (GH#10791) Patrick Hoefler
调整 dask-expr 迁移的 IO 测试 (GH#10776) Patrick Hoefler
移除 groupby 中关于 sort 和 split_out 的弃用警告 (GH#10788) Patrick Hoefler
解决 pandas 的弃用问题 (GH#10789) Patrick Hoefler
在 get_scheduler 中仅导入 distributed 一次 (GH#10771) Florian Jetter
简化 GitHub 操作 (GH#10781) crusaderky
添加单元测试概述 (GH#10769) Miles
清理CI中的冗余部分 (GH#10768) crusaderky
更新 ufunc 的测试 (GH#10773) Patrick Hoefler
使用 pytest.mark.skipif(DASK_EXPR_ENABLED) (GH#10774) crusaderky
调整 dask-expr 的随机测试 (GH#10759) Patrick Hoefler
修复了来自 pandas 的一些弃用警告 (GH#10749) Patrick Hoefler
调整 dask-expr 的随机测试 (GH#10762) Patrick Hoefler
更新 pre-commit (GH#10767) Hendrik Makait
在CI中清理配置开关 (GH#10766) crusaderky
改进 validate_key 的异常 (GH#10765) Hendrik Makait
在 set_index 中处理未知的 datetimeindexes 分割 (GH#10757) Patrick Hoefler
为小数添加哈希 (GH#10758) Patrick Hoefler
审查 is_monotonic 的测试 (GH#10756) crusaderky
在 value_counts_aggregate 中更改参数顺序 (GH#10751) Patrick Hoefler
调整 dask-expr 的一些 groupby 测试 (GH#10752) Patrick Hoefler
将 mimesis 限制在 < 12 以适应 3.9 构建 (GH#10755) Patrick Hoefler
不要在跳过条件中评估配置 (GH#10753) Patrick Hoefler
调整一些测试以兼容 dask-expr (GH#10714) Patrick Hoefler
使 dask.array.utils 函数更通用到其他 Dask 数组 (GH#10676) Matthew Rocklin
删除重复的“单机”部分 (GH#10747) Matthew Rocklin
调整 ORC engine= 参数 (GH#10746) crusaderky
添加 pandas 3.0 的弃用和 dask-expr 的迁移准备 (GH#10723) Miles
在文档首页添加任务图动画 (GH#10730) Sarah Charlotte Johnson
使用新的 Xarray 标志 (GH#10729) James Bourbeau
更新“10分钟了解Dask”页面上的标签样式 (GH#10728) James Bourbeau
在CI中更新环境文件上传步骤 (GH#10726) James Bourbeau
如果 split_out>1，不要在 GroupBy.nunqiue 中重复未观察到的类别 (GH#10716) Patrick Hoefler
dask.order 更新的变更日志条目 (GH#10715) Florian Jetter
在 _check_dsk 中放松冗余键检查 (GH#10701) Richard (Rick) Zamora
修复 test_report.py (GH#8459) Miles
恢复 pickle 更改 (GH#8456) Florian Jetter
调整 test_report.py 以支持 dask/dask 仓库 (GH#8450) Miles
为P2P洗牌保持稳定的顺序 (GH#8453) Hendrik Makait
为调度器添加无工作超时 (GH#8371) FTang21
允许维护者手动调度测试工作流 (GH#8445) Erik Sundell
将调度器相关的转换功能设为私有 (GH#8448) Hendrik Makait
更新 pre-commit 钩子 (GH#8444) Hendrik Makait
在序列化时不要总是检查 __main__ in result (GH#8443) Florian Jetter
仅在实现时将 wait_for_workers 委托给集群实例 (GH#8441) Erik Sundell
在 test_pandas 中延长睡眠时间 (GH#8440) Julian Gilbey
避免使用已弃用的 shuffle 关键字 (GH#8439) Hendrik Makait
Shuffle 指标 4/4: 移除定制诊断 (GH#8367) crusaderky
不要在测试套件中运行 gilknocker (GH#8423) Florian Jetter
调整 abstractmethods (GH#8427) crusaderky
Shuffle 指标 3/4: 捕获背景指标 (GH#8366) crusaderky
洗牌指标 2/4：添加背景指标 (GH#8365) crusaderky
洗牌指标 1/4: 添加前景指标 (GH#8364) crusaderky
将 actions/upload-artifact 从 3 升级到 4 (GH#8420)
修复 test_merge_p2p_shuffle_reused_dataframe_with_different_parameters (GH#8422) Hendrik Makait
扩展 Client.upload_file 文档示例 (GH#8313) Miles
改进P2P调度器插件中的日志记录 (GH#8410) Hendrik Makait
重新启用 test_decide_worker_coschedule_order_neighbors (GH#8402) Florian Jetter
将cuDF溢出统计信息添加到RMM/GPU内存图中 (GH#8148) Charles Blackmon-Luca
修复Nanny启动的worker的哈希不一致问题 (GH#8400) Charles Stern
如果工作线程正在运行长时间运行的任务（例如 worker_client），则不允许其缩减 (GH#7481) Florian Jetter
修复不稳定的 test_subprocess_cluster_does_not_depend_on_logging (GH#8417) crusaderky

2023.12.1¶

发布于2023年12月15日

亮点¶

逻辑查询计划现可用于 Dask DataFrames¶

Dask DataFrames 现在通过使用逻辑查询计划器性能得到了很大提升。此功能目前默认关闭，但可以通过以下方式开启：

dask.config.set({"dataframe.query-planning": True})

您还需要安装 dask-expr：

pip install dask-expr

到目前为止，我们已经看到了有希望的性能提升，更多信息请参见这篇博客文章和这些定期更新的基准测试。关于查询优化器如何工作的更详细解释可以在这篇博客文章中找到。

此功能仍在积极开发中，API 尚未稳定，因此可能会发生重大变化。我们预计将在明年年初将查询优化器设为默认。

详情请参见 Patrick Hoefler 的 GH#10634。

`read_parquet` 中的Dtype推断¶

read_parquet 现在会将 Arrow 类型 pa.date32(), pa.date64() 和 pa.decimal() 推断为 pandas 中的 ArrowDtype。这些数据类型由原始的 Arrow 数组支持，因此避免了转换为 NumPy 对象。此外，read_parquet 将不再将嵌套和二进制类型推断为字符串，它们将被存储在 NumPy 对象数组中。

详情请参见 Patrick Hoefler 的 GH#10698 和 GH#10705。

调度改进以减少内存使用¶

此版本对调度逻辑的核心部分进行了重大重写。它包括在 dask.order 中对拓扑排序算法的新方法，该算法决定了任务的运行顺序。不当的排序被认为是导致集群内存压力过大的主要原因。

此版本更新修复了在 2023.10.0 版本中引入的一些性能退化问题（参见 GH#10535）。通常情况下，计算现在会更加积极地释放数据，如果这些数据不再需要在内存中保留的话。

详情请参见 Florian Jetter 的 GH#10660, GH#10697。

改进的基于P2P的合并鲁棒性和性能¶

此版本包含多个更新，修复了2023.9.2版本中可能引入的死锁问题，并增强了集群动态扩展时基于P2P合并的鲁棒性。

详情请参见 Hendrik Makait 的 GH#8415, GH#8416, 和 GH#8414。

已移除禁用 pickle 选项¶

distributed.scheduler.pickle 配置选项不再支持。自2023.4.0版本起，pickle 用于传输任务图，因此不能再被禁用。现在，当 distributed.scheduler.pickle 设置为 False 时，我们会引发一个信息性的错误。

详情请参见 Florian Jetter 的 GH#8401。

其他更改

为最近的P2P合并修复添加变更日志条目 (GH#10712) Hendrik Makait
更新 DataFrame 页面 (GH#10710) Matthew Rocklin
为 dask-expr 切换添加变更日志条目 (GH#10704) Patrick Hoefler
改进 PipInstall 更改的变更日志条目 (GH#10711) Hendrik Makait
移除 PR 标签器 (GH#10709) James Bourbeau
向 Delayed 对象添加 .__wrapped__ (GH#10695) Andrew S. Rosen
将 actions/labeler 从 4.3.0 升级到 5.0.0 (GH#10689)
将 actions/stale 从 8 升级到 9 (GH#10690)
[Dask.order] 从排序中移除非可运行的叶子节点 (GH#10697) Florian Jetter
更新安装文档 (GH#10699) Matthew Rocklin
修复文档中的软件环境链接 (GH#10700) James Bourbeau
避免将非字符串转换为箭头字符串以读取parquet文件 (GH#10692) Patrick Hoefler
将 xarray-contrib/issue-from-pytest-log 从 1.2.7 升级到 1.2.8 (GH#10687)
修复 tokenize 对于 pd.DateOffset 的问题 (GH#10664) jochenott
修复了将空数组写入zarr的错误 (GH#10506) Ben
文档更新，修复样式，提及免费 (GH#10679) Matthew Rocklin
更新部署文档 (GH#10680) Matthew Rocklin
使用关键路径方法重写 Dask.order (GH#10660) Florian Jetter
避免替换多次出现的键 (GH#10646) Florian Jetter
添加缺失的图片到文档 (GH#10694) Matthew Rocklin
将 actions/setup-python 从 4 升级到 5 (GH#10688)
更新着陆页 (GH#10674) Matthew Rocklin
在调度中简化元检查 (GH#10638) Patrick Hoefler
Pin PR 标签器 (GH#10675) Matthew Rocklin
稍微重新组织文档索引 (GH#10669) Matthew Rocklin
将 actions/setup-java 从 3 升级到 4 (GH#10667)
将 conda-incubator/setup-miniconda 从 2.2.0 升级到 3.0.1 (GH#10668)
将 xarray-contrib/issue-from-pytest-log 从 1.2.6 更新到 1.2.7 (GH#10666)
修复 test_categorize_info 与 nightly pyarrow (GH#10662) James Bourbeau
重写 test_subprocess_cluster_does_not_depend_on_logging (GH#8409) Hendrik Makait
在 SpillBuffer 中未能 pickle 键时避免 RecursionError 并使用 tblib=3 (GH#8404) Hendrik Makait
允许任务覆盖 is_rootish 启发式 (GH#8412) Hendrik Makait
移除 GPU 执行器 (GH#8399) Hendrik Makait
不要依赖于子进程集群的日志记录 (GH#8398) Hendrik Makait
将 gpuCI 的 RAPIDS_VER 更新为 24.02 (GH#8384)
将 actions/setup-python 从 4 升级到 5 (GH#8396)
确保在P2P重新分块中的输出块均匀分布 (GH#8207) Florian Jetter
琐事：修正拼写错误 (GH#8395) crusaderky
将 JamesIves/github-pages-deploy-action 从 4.4.3 升级到 4.5.0 (GH#8387)
将 conda-incubator/setup-miniconda from 从 3.0.0 升级到 3.0.1 (GH#8388)

2023.12.0¶

发布于2023年12月1日

亮点¶

Pip安装重启和环境变量¶

distributed.PipInstall 插件现在具有更强大的重启逻辑，并且还支持环境变量。

下面展示了用户如何使用 distributed.PipInstall 插件和一个 TOKEN 环境变量来安全地从私有仓库安装包：

from dask.distributed import PipInstall
plugin = PipInstall(packages=["private_package@git+https://${TOKEN}@github.com/dask/private_package.git])
client.register_plugin(plugin)

详情请参见 Hendrik Makait 的 GH#8374、GH#8357 和 GH#8343。

Bokeh 3.3.0 兼容性¶

此版本包含与使用 bokeh>=3.3.0 和代理 Dask 仪表板的兼容性更新。以前，仪表板图表的内容不会显示。

详情请参见 Jacob Tomlinson 的 GH#8347 和 GH#8381。

2023.11.0¶

发布于2023年11月10日

亮点¶

零拷贝 P2P 数组重新分块¶

使用内存中P2P数组重新分块时，用户应看到显著的性能提升。这是由于不再复制底层数据缓冲区。

下面展示了一个简单的示例，我们比较了不同重新分块方法的性能。

shape = (30_000, 6_000, 150) # 201.17 GiB
input_chunks = (60, -1, -1) # 411.99 MiB
output_chunks = (-1, 6, -1) # 205.99 MiB

arr = da.random.random(size, chunks=input_chunks)
with dask.config.set({
    "array.rechunk.method": "p2p",
    "distributed.p2p.disk": True,
}):
    (
      da.random.random(size, chunks=input_chunks)
      .rechunk(output_chunks)
      .sum()
      .compute()
    )

不同方法之间重新分块性能的比较，包括不同集群规模下的任务、带磁盘的点对点和不带磁盘的点对点。图中显示，不带磁盘的点对点比基于默认任务的方法快60%。

详情请参见 crusaderky 的 GH#8282, GH#8318, GH#8321 以及 Hendrik Makait 的 (GH#8322)。

弃用 PyArrow <14.0.1¶

pyarrow<14.0.1 的使用从本版本开始已被弃用。建议所有用户升级他们的 pyarrow 版本或安装 pyarrow-hotfix。详情请参阅此 CVE。

详情请参见 Florian Jetter 的 GH#10622。

改进了用于 Parquet 的 PyArrow 文件系统¶

在读取 Parquet 数据集时使用 filesystem="arrow" 现在可以正确推断访问远程云托管数据时的正确云区域。

详情请参见 Richard (Rick) Zamora 的 GH#10590。

改进P2P混洗中的类型协调¶

详情请参见 Hendrik Makait 的 GH#8332。

2023.10.1¶

发布于2023年10月27日

亮点¶

Python 3.12¶

此版本正式添加了对 Python 3.12 的支持。

详情请参见 Thomas Grainger 的 GH#10544 和 GH#8223。

2023.10.0¶

发布于2023年10月13日

亮点¶

减少多数组缩减的内存压力¶

此版本包含了Dask任务图调度逻辑的主要更新。这些更新显著减少了数组缩减时的内存压力。我们预计这将对数组计算社区产生重大影响。

详情请参见 Florian Jetter 的 GH#10535。

改进的P2P洗牌鲁棒性¶

有几个更新（如下所列）使得P2P洗牌更加健壮，更不容易失败。

详情请参见 Hendrik Makait 的 GH#8262, GH#8264, GH#8242, GH#8244, 和 GH#8235，以及 Charles Blackmon-Luca 的 GH#8124。

减少大型图的调度器CPU负载¶

在计算大型任务图时，用户应在其调度程序上看到降低的CPU负载。

详情请参见 Florian Jetter 的 GH#8238 和 GH#10547 以及 crusaderky 的 GH#8240。

2023年9月3日¶

发布于2023年9月29日

亮点¶

恢复以前的配置覆盖行为¶

2023.9.2 版本在 dask.config.get 中使用 override_with= 关键字覆盖配置选项的方式上引入了一个非预期的重大变化（参见 GH#10519）。此版本恢复了之前的行为。

详情请参见 crusaderky 的 GH#10521。

Dask 数组缩减中的复杂数据类型¶

此版本改进了在使用 Dask Array 中的常见归约操作（例如 var、std、moment）时对复杂数据类型的支持。

详情请参见 wkrasnicki 的 GH#10009。

2023年9月2日¶

发布于2023年9月15日

亮点¶

当安装了过时的 PyArrow 时，P2P 混洗现在会引发错误¶

之前，如果安装了较旧版本的 pyarrow，默认的混洗方法会从点对点（P2P）混洗静默回退到基于任务的混洗。现在，我们会引发一个包含所需最低 pyarrow 版本的信息性错误，而不是静默回退。

详情请参见 Hendrik Makait 的 GH#10496。

admin.traceback.shorten 的弃用周期¶

2023.9.0 版本在没有引入弃用周期的情况下修改了 admin.traceback.shorten 配置选项。这导致在某些情况下无法创建 Dask 集群。此版本为此配置更改引入了弃用周期。

详情请参见 crusaderky 的 GH#10509。

2023年9月1日¶

发布于2023年9月6日

备注

这是一个热修复版本，修复了2023.9.0版本中引入的P2P洗牌错误（参见 GH#10493）。

增强功能¶

更严格的dask键数据类型 (GH#10485) crusaderky
在 DASK_ 环境变量中对 None 的特殊处理 (GH#10487) crusaderky

Bug 修复¶

修复 DataFrame.set_index 和 DataFrame.sort_values 中 meta 的 _partitions dtype (GH#10493) Hendrik Makait
在 derived_from 中处理 cached_property 装饰器 (GH#10490) Lawrence Mitchell

维护¶

将 actions/checkout 从 3.6.0 升级到 4.0.0 (GH#10492)
简化一些 import distributed 的测试 (GH#10484) crusaderky

2023.9.0¶

发布于2023年9月1日

Bug 修复¶

移除对 np.int64 在键中的支持 (GH#10483) crusaderky
修复 meta 中 _partitions 的 dtype 以进行洗牌 (GH#10462) Hendrik Makait
不要使用异常钩子来缩短回溯 (GH#10456) crusaderky

文档¶

在 DataFrame 文档中添加 p2p 洗牌选项 (GH#10477) Patrick Hoefler

维护¶

跳过 pandas=2.1.0 的失败测试 (GH#10488) Patrick Hoefler
更新 pandas=2.1.0 的测试 (GH#10439) Patrick Hoefler
启用 pytest-timeout (GH#10482) crusaderky
将 actions/checkout 从 3.5.3 升级到 3.6.0 (GH#10470)

2023年8月1日¶

发布于2023年8月18日

增强功能¶

为 cpu_count 添加 cgroup v2 支持 (GH#10419) Johan Olsson
支持多列 groupby 并设置 sort=True 和 split_out>1 (GH#10425) Richard (Rick) Zamora
添加 DataFrame.enforce_runtime_divisions 方法 (GH#10404) Richard (Rick) Zamora
启用文件 mode="x" 并设置 single_file=True 以用于 Dask DataFrame 的 to_csv (GH#10443) Genevieve Buckley

Bug 修复¶

在追加模式下运行 to_csv 时，当 single_file 为 True 时修复 ValueError (GH#10441) Ben

维护¶

为 pandas 的 from_pyarrow_table_dispatch 添加默认的 types_mapper (GH#10446) Richard (Rick) Zamora

2023.8.0¶

发布于2023年8月4日

增强功能¶

修复 make_timeseries 性能回退 (GH#10428) Irina Truong

文档¶

将 distributed.print 添加到调试文档 (GH#10435) James Bourbeau
记录NumPy函数与Dask函数兼容性 (GH#9941) Chiara Marmo

维护¶

在 license 元数据中使用 SPDX (GH#10437) John A Kirkham
在 dask[dataframe] 中要求 dask[array] (GH#10357) John A Kirkham
将 gpuCI 的 RAPIDS_VER 更新为 23.10 (GH#10427)
简化兼容性代码 (GH#10426) Hendrik Makait
修复兼容性变量命名 (GH#10424) Hendrik Makait
修复了上游 pandas 和 pyarrow 的一些错误 (GH#10412) Irina Truong

2023年7月1日¶

发布于2023年7月20日

备注

此版本更新了 Dask DataFrame，如果安装了 pandas>=2 和 pyarrow>=12，将自动将使用 object 数据类型的文本数据转换为 string[pyarrow]。

这将显著减少处理文本数据的工作流中的内存消耗，并提高计算性能。

你可以通过将 dataframe.convert-string 配置值设置为 False 来禁用此更改。

dask.config.set({"dataframe.convert-string": False})

增强功能¶

如果安装了适当的依赖项，则转换为 pyarrow 字符串 (GH#10400) James Bourbeau
在 p2p 的 shuffle 之前避免 repartition (GH#10421) Patrick Hoefler
生成随机 Dask DataFrame 的 API (GH#10392) Irina Truong
加速 dask.bag.Bag.random_sample (GH#10356) crusaderky
为无效的时间单位引发有帮助的 ValueError (GH#10408) Nat Tabris
当分区匹配时（分区作为列表提供），使 repartition 成为无操作 (GH#10395) Nicolas Grandemange

Bug 修复¶

在 read_parquet 令牌中使用 dataframe.convert-string (GH#10411) James Bourbeau
在连接 MultiIndex 时，类别 dtype 会丢失 (GH#10407) Irina Truong
修复 FutureWarning: 提供的可调用对象... (GH#10405) Irina Truong
在 read_parquet 中启用非分类的 hive-partition 列 (GH#10353) Richard (Rick) Zamora
concat 忽略没有列的 DataFrame (GH#10359) Patrick Hoefler

2023.7.0¶

发布于2023年7月7日

增强功能¶

在尝试加载CLI入口点时捕获异常 (GH#10380) Jacob Tomlinson

Bug 修复¶

修复 _clean_ipython_traceback 中的拼写错误 (GH#10385) Alexander Clausen
确保 df 在 from_pandas 之后是不可变的 (GH#10383) Patrick Hoefler
在 Series.rename 中一致地警告 inplace (GH#10313) Patrick Hoefler

文档¶

在rechunk文档中添加关于输出形状和重塑的说明 (GH#10377) Swayam Patil

维护¶

简化 astype 实现 (GH#10393) Patrick Hoefler
修复 test_first_and_last 以适应已弃用的 last (GH#10373) James Bourbeau
在 create_merge_tree 中添加 level (GH#10391) Patrick Hoefler
不要从 scipy.stats.chisquare 文档字符串派生 (GH#10382) Doug Davis

2023.6.1¶

发布于2023年6月26日

增强功能¶

移除不再支持的 clip_lower 和 clip_upper (GH#10371) Patrick Hoefler
支持 DataFrame.set_index(..., sort=False) (GH#10342) Miles
清理远程回溯 (GH#10354) Irina Truong
为 pyarrow.Table 转换添加调度机制 (GH#10312) Richard (Rick) Zamora
即使启用了融合，也选择P2P (GH#10344) Hendrik Makait
在图生成过程中尽早验证重新分块的可能性 (GH#10336) Hendrik Makait

Bug 修复¶

修复了传递给 read_csv 的 header 问题 (GH#10355) GALI PREM SAGAR
在 GroupBy.var 和 GroupBy.std 中尊重 dropna 和 observed (GH#10350) Patrick Hoefler
修复在分布式客户端写入hdf时出现的 H5FD_lock 错误 (GH#10309) Irina Truong
修复 bag.map() 的 total_mem_usage (GH#10341) Irina Truong

弃用¶

弃用 DataFrame.fillna/Series.fillna 的 method 参数 (GH#10349) Irina Truong
弃用 DataFrame.first 和 Series.first (GH#10352) Irina Truong

维护¶

弃用 numpy.compat (GH#10370) Irina Truong
修复线程间注释和跨度泄漏的问题 (GH#10367) Irina Truong
在 pyarrow_table_dispatch 函数中使用通用 kwargs (GH#10364) Richard (Rick) Zamora
移除 isna 中不必要的 try/except (GH#10363) Patrick Hoefler
mypy 对 numpy 1.25 的支持 (GH#10362) crusaderky
将 actions/checkout 从 3.5.2 升级到 3.5.3 (GH#10348)
在 upstream 构建中恢复 numba (GH#10330) James Bourbeau
更新 pandas/numpy/scipy 的夜间轮子索引 (GH#10346) Matthew Roeschke
在yaml中添加rechunk配置值（GH#10343）`Hendrik Makait`_

2023.6.0¶

发布于2023年6月9日

增强功能¶

为 read_parquet 添加缺失的 not in 谓词支持 (GH#10320) Richard (Rick) Zamora

Bug 修复¶

修复 value_counts 的错误 (GH#10323) Irina Truong
更新空的 describe 顶部和频率值 (GH#10319) James Bourbeau

文档¶

修复 hetzner 拼写错误 (GH#10332) Sarah Charlotte Johnson

维护¶

在 Python 3.11 上使用 numba 和 sparse 进行测试 (GH#10329) Thomas Grainger
移除 numpy.find_common_type 警告忽略 (GH#10311) James Bourbeau
将 gpuCI 的 RAPIDS_VER 更新为 23.08 (GH#10310)

2023年5月1日¶

发布于2023年5月26日

备注

此版本放弃了对 Python 3.8 的支持。自此版本起，Dask 支持 Python 3.9、3.10 和 3.11。更多详情请参见此社区问题。

增强功能¶

放弃对 Python 3.8 的支持 (GH#10295) Thomas Grainger
更改 Dask Bag 分区方案以提高集群饱和度 (GH#10294) Jacob Tomlinson
为GPU支持的集合泛化 dd.to_datetime ，引入 get_meta_library 实用工具 (GH#9881) Charles Blackmon-Luca
将 na_action 添加到 DataFrame.map (GH#10305) Patrick Hoefler
在 DataFrame.nsmallest 和 DataFrame.nlargest 中，当未给出 columns 时引发 TypeError (GH#10301) Patrick Hoefler
改进 pd.MultiIndex 的 sizeof (GH#10230) Patrick Hoefler
在一系列 DataFrame 方法中支持重复的列 (GH#10261) Patrick Hoefler
为 DataFrame.idxmin 和 DataFrame.idxmax 添加 numeric_only 支持 (GH#10253) Patrick Hoefler
为 DataFrame.quantile 实现 numeric_only 支持 (GH#10259) Patrick Hoefler
在 DataFrame.std 中添加对 numeric_only=False 的支持 (GH#10251) Patrick Hoefler
为 GroupBy.cumprod 和 GroupBy.cumsum 实现 numeric_only=False (GH#10262) Patrick Hoefler
为 skew 和 kurtosis 实现 numeric_only (GH#10258) Patrick Hoefler
mask 和 where 应该接受一个 callable (GH#10289) Irina Truong
修复 read_parquet 中从 Categorical 到 pa.dictionary 的转换 (GH#10285) Patrick Hoefler

Bug 修复¶

嵌套注解上的虚假配置 (GH#10318) crusaderky
修复已知和未知块大小的维度的重新分块行为 (GH#10157) Hendrik Makait
启用 drop 以支持不匹配的分区 (GH#10300) James Bourbeau
修复 to_timestamp 的 divisions 构造 (GH#10304) Patrick Hoefler
pandas ExtensionDtype 在 Series 归约操作中引发 (GH#10149) Patrick Hoefler
修复 da.random 接口中的回归问题 (GH#10247) Eray Aslan
da.coarsen 不会修剪元数据中的空块 (GH#10281) Irina Truong
修复了 read_csv 中 engine="pyarrow" 的 dtype 推断问题 (GH#10280) Patrick Hoefler

文档¶

将 meta_from_array 添加到 API 文档 (GH#10306) Ruth Comer
更新 Coiled 链接 (GH#10296) Sarah Charlotte Johnson
为演示日添加文档 (GH#10288) Matthew Rocklin

维护¶

在上传conda nightly版本时，从conda-forge显式安装 anaconda-client (GH#10316) Charles Blackmon-Luca
配置 isort 以添加 from __future__ import annotations (GH#10314) Thomas Grainger
避免在测试中使用 pandas Series.__getitem__ 的弃用 (GH#10308) James Bourbeau
忽略来自 pandas 的 numpy.find_common_type 警告 (GH#10307) James Bourbeau
添加测试以检查 DataFrame.__setitem__ 不会就地修改 df (GH#10223) Patrick Hoefler
在 value_counts 中清理 dropna 的默认值 (GH#10299) Patrick Hoefler
将 pytest-cov 添加到 test 额外功能中 (GH#10271) James Bourbeau

2023.5.0¶

发布于2023年5月12日

增强功能¶

为 GroupBy.corr 和 GroupBy.cov 实现 numeric_only=False (GH#10264) Patrick Hoefler
在 DataFrame.var 中添加对 numeric_only=False 的支持 (GH#10250) Patrick Hoefler
为 DataFrame.mode 添加 numeric_only 支持 (GH#10257) Patrick Hoefler
将 DataFrame.map 添加到 dask.DataFrame API (GH#10246) Patrick Hoefler
调整 DataFrame.applymap 的弃用和所有 NA concat 行为变化 (GH#10245) Patrick Hoefler
为 DataFrame.count 启用 numeric_only=False (GH#10234) Patrick Hoefler
在掩码/条件中禁止数组输入 (GH#10163) Irina Truong
在 GroupBy.corr 和 GroupBy.cov 中支持 numeric_only=True (GH#10227) Patrick Hoefler
为 GroupBy.median 添加 numeric_only 支持 (GH#10236) Patrick Hoefler
在 dask.datasets 中支持 mimesis=9 (GH#10241) James Bourbeau
为 min, max 和 prod 添加 numeric_only 支持 (GH#10219) Patrick Hoefler
为 GroupBy.cumsum 和 GroupBy.cumprod 添加 numeric_only=True 支持 (GH#10224) Patrick Hoefler
添加助手以解包 numeric_only 关键字 (GH#10228) Patrick Hoefler

Bug 修复¶

修复 clone + from_array 失败 (GH#10211) crusaderky
修复ea dtypes的数据框缩减 (GH#10150) Patrick Hoefler
避免在 numpy=1.25 中的标量转换弃用警告 (GH#10248) James Bourbeau
确保转换输出与输入具有相同的索引 (GH#10184) Irina Truong
修复单行分区上的 corr 和 cov (GH#9756) Irina Truong
修复 test_groupby_numeric_only_supported 和 test_groupby_aggregate_categorical_observed 的上游错误 (GH#10243) Irina Truong

文档¶

清理未来文档 (GH#10266) Matthew Rocklin
添加 Index API 参考 (GH#10263) hotpotato

维护¶

当meta传递给``apply``时发出警告（GH#10256）`Patrick Hoefler`_
在CI中移除 imageio 版本限制 (GH#10260) Patrick Hoefler
移除未使用的 DataFrame 方差方法 (GH#10252) Patrick Hoefler
取消 xfail test_categories 与 pyarrow 字符串和 pyarrow>=12 (GH#10244) Irina Truong
将 gpuCI PYTHON_VER 从 3.8 升级到 3.9 (GH#10233) Charles Blackmon-Luca

2023年4月1日¶

发布于2023年4月28日

增强功能¶

为 DataFrame.sum 实现 numeric_only 支持 (GH#10194) Patrick Hoefler
在 GroupBy 操作中添加对 numeric_only=True 的支持 (GH#10222) Patrick Hoefler
在 pandas 1.4 及以上版本中避免在 DataFrame.__setitem__ 中进行深层复制 (GH#10221) Patrick Hoefler
避免使用 Series.apply 调用 _meta_nonempty (GH#10212) Patrick Hoefler
取消固定 sqlalchemy 并修复兼容性问题 (GH#10140) Patrick Hoefler

Bug 修复¶

部分恢复默认客户端发现 (GH#10225) Florian Jetter
在 Index 元创建中支持箭头数据类型 (GH#10170) Patrick Hoefler
在截断浮点数时，重新分区会引发扩展数据类型的错误 (GH#10169) Patrick Hoefler
将 fastparquet 中的空 Index 调整为 object 数据类型 (GH#10179) Patrick Hoefler

文档¶

更新 Kubernetes 文档 (GH#10232) Jacob Tomlinson
将 DataFrame.reduction 添加到 API 文档 (GH#10229) James Bourbeau
在文档中添加 DataFrame.persist 并修复链接 (GH#10231) Patrick Hoefler
为 GroupBy.transform 添加文档 (GH#10185) Irina Truong
修复随机数生成文档中的格式问题 (GH#10189) Eray Aslan

维护¶

将 imageio 固定在 <2.28 (GH#10216) Patrick Hoefler
关于 importlib_metadata 回传的注释 (GH#10207) James Bourbeau
将 xarray 添加回 Python 3.11 CI 构建 (GH#10200) James Bourbeau
添加 mindeps 构建，包含所有可选依赖 (GH#10161) Charles Blackmon-Luca
在 percentiles_summary 中为 array_safe 提供适当的 like 值 (GH#10156) Charles Blackmon-Luca
避免在 read_hdf 中多次重新打开 hdf 文件 (GH#10205) Thomas Grainger
在可空列上添加合并测试 (GH#10071) Charles Blackmon-Luca
修复覆盖率配置 (GH#10203) Thomas Grainger
移除 is_period_dtype 和 is_sparse_dtype (GH#10197) Patrick Hoefler
将 actions/checkout 从 3.5.0 升级到 3.5.2 (GH#10201)
避免使用 pandas 中已弃用的 is_categorical_dtype (GH#10180) Patrick Hoefler
调整已弃用的 is_interval_dtype 和 is_datetime64tz_dtype (GH#10188) Patrick Hoefler

2023.4.0¶

发布于2023年4月14日

增强功能¶

在 update_defaults 中覆盖旧的默认值 (GH#10159) Gabe Joseph
添加一个CLI命令来 list 和 get dask配置中的值 (GH#9936) Irina Truong
处理基于字符串的引擎参数到 read_json (GH#9947) Richard (Rick) Zamora
避免使用已弃用的 GroupBy.dtypes (GH#10111) Irina Truong

Bug 修复¶

恢复 grouper 相关更改 (GH#10182) Irina Truong
GroupBy.cov 对非数值分组列引发异常 (GH#10171) Patrick Hoefler
更新支持 numpy 数值数据类型的 Index (GH#10154) Irina Truong
在使用 pyarrow 读取时，保留分区列的 dtype (GH#10115) Patrick Hoefler
修复 to_hdf 的注释 (GH#10123) Hendrik Makait
在检查列是否全为数值时处理 None 列名 (GH#10128) Lawrence Mitchell
修复 valid_divisions 当传入 tuple 时的问题 (GH#10126) Brian Phillips
在 DataFrame.categorize 中维护注解 (GH#10120) Hendrik Makait
修复在过滤过程中处理缺失的 parquet 最小/最大统计信息的问题 (GH#10042) Richard (Rick) Zamora

弃用¶

弃用 use_nullable_dtypes= 并添加 dtype_backend= (GH#10076) Irina Truong
在 Series.apply 中弃用 convert_dtype (GH#10133) Irina Truong

文档¶

基于文档 Generator 的随机数生成 (GH#10134) Eray Aslan

维护¶

将 dataframe.convert_string 更新为 dataframe.convert-string (GH#10191) Irina Truong
将 python-cityhash 添加到 CI 环境中 (GH#10190) Charles Blackmon-Luca
暂时固定 scikit-image 以修复 Windows CI (GH#10186) Patrick Hoefler
处理 to_pydatetime 和 apply 的 pandas 弃用警告 (GH#10168) Patrick Hoefler
移除 bokeh<3 限制 (GH#10177) James Bourbeau
修复写时复制下的失败测试 (GH#10173) Patrick Hoefler
允许 pyarrow CI 失败 (GH#10176) James Bourbeau
在 dask.array 中切换到 Generator 以进行随机数生成 (GH#10003) Eray Aslan
将 peter-evans/create-pull-request 从 4 升级到 5 (GH#10166)
修复 test_arithmetic 中的 modf 操作不稳定问题 (GH#10162) Irina Truong
暂时从CI中移除 xarray 与 pandas 2.0 (GH#10153) James Bourbeau
修复 test_default_scheduler_on_worker 中的 update_graph 计数逻辑 (GH#10145) James Bourbeau
修复 pandas 2.0 的文档构建 (GH#10138) James Bourbeau
从 gpuCI 更新审核者中移除 dask/gpu (GH#10135) Charles Blackmon-Luca
将 gpuCI 的 RAPIDS_VER 更新为 23.06 (GH#10129)
将 actions/stale 从 6 升级到 8 (GH#10121)
使用声明式的 setuptools (GH#10102) Thomas Grainger
放松对 Scalar 类对象的 assert_eq 检查 (GH#10125) Matthew Rocklin
将 readthedocs 配置升级到 ubuntu 22.04 和 Python 3.11 (GH#10124) Thomas Grainger
将 actions/checkout 从 3.4.0 升级到 3.5.0 (GH#10122)
修复 pyarrow CI 构建中的 test_null_partition_pyarrow (GH#10116) Irina Truong
删除分布式包 (GH#9988) Florian Jetter
将 dask.compatibility 设为私有 (GH#10114) Jacob Tomlinson

2023年3月2日¶

发布于2023年3月24日

增强功能¶

弃用 groupby 中分类数据的 observed=False (GH#10095) Irina Truong
弃用某些 groupby 操作中的 axis= 参数 (GH#10094) James Bourbeau
在 DataFrame.rolling/Series.rolling 中的 axis 关键字已被弃用 (GH#10110) Irina Truong
DataFrame._data 在 pandas 中的弃用 (GH#10081) Irina Truong
使用 importlib_metadata 回退以避免 CLI UserWarning (GH#10070) Thomas Grainger
将 dask.dataframe.read_parquet 的端口选项解析逻辑移植到 to_parquet (GH#9981) Anton Loukianov

Bug 修复¶

避免在 groupby-apply 中使用 dd.shuffle (GH#10043) Richard (Rick) Zamora
使用 pyarrow parquet 引擎启用空 hive 分区 (GH#10007) Richard (Rick) Zamora
在 *_like 函数中支持未知形状 (GH#10064) Doug Davis

文档¶

在API文档中添加 to_backend 方法 (GH#10093) Lawrence Mitchell
在开发者文档中移除损坏的gpuCI链接 (GH#10065) Charles Blackmon-Luca

维护¶

将 readthedocs sphinx 警告配置为错误 (GH#10104) Thomas Grainger
取消 xfail test_division_or_partition 的 pyarrow 字符串激活 (GH#10108) Irina Truong
取消 xfail test_different_columns_are_allowed ，当 pyarrow 字符串激活时 (GH#10109) Irina Truong
恢复 Entrypoints 兼容性 (GH#10113) Jacob Tomlinson
取消 xfail test_to_dataframe_optimize_graph 并激活 pyarrow 字符串 (GH#10087) Irina Truong
仅在可编辑安装时运行 test_development_guidelines_matches_ci (GH#10106) Charles Blackmon-Luca
取消 xfail test_dataframe_cull_key_dependencies_materialized ，当 pyarrow 字符串激活时 (GH#10088) Irina Truong
在CI环境中安装 mimesis (GH#10105) Charles Blackmon-Luca
修复未找到模块 ipykernel 的问题 (GH#10101) Irina Truong
通过安装 ipykernel 修复文档构建 (GH#10103) Thomas Grainger
允许 pyarrow 在失败时继续构建 (GH#10097) James Bourbeau
将 actions/checkout 从 3.3.0 升级到 3.4.0 (GH#10096)
修复 test_set_index_on_empty 在 pyarrow 字符串激活时的问题 (GH#10054) Irina Truong
取消 xfail pyarrow 序列化测试 (GH#10082) James Bourbeau
CI 环境文件清理 (GH#10078) James Bourbeau
取消 xfail 更多 pyarrow 测试 (GH#10066) Irina Truong
暂时跳过 pyarrow_compat 测试与 pandas 2.0 (GH#10063) James Bourbeau
修复 test_melt 在 pyarrow 字符串激活时的问题 (GH#10052) Irina Truong
修复 test_str_accessor 在 pyarrow 字符串激活时的问题 (GH#10048) James Bourbeau
修复 test_better_errors_object_reductions 在 pyarrow 字符串激活时的问题 (GH#10051) James Bourbeau
修复 test_loc_with_non_boolean_series 在 pyarrow 字符串激活时的问题 (GH#10046) James Bourbeau
修复 test_values 在 pyarrow 字符串激活时的问题 (GH#10050) James Bourbeau
暂时 xfail test_upstream_packages_installed (GH#10047) James Bourbeau

2023年3月1日¶

发布于2023年3月10日

增强功能¶

在 MultiIndex 中支持 pyarrow 字符串 (GH#10040) Irina Truong
改进了对 pyarrow 字符串的支持 (GH#10000) Irina Truong
修复数组缩减期间的不稳定 RuntimeWarning (GH#10030) James Bourbeau
扩展 complete 额外功能 (GH#10023) James Bourbeau
使用 dataframe.convert-string=True 和 pandas<2.0 时引发错误 (GH#10033) Irina Truong
将 shuffle/rechunk 配置选项/关键字参数重命名为 method (GH#10013) James Bourbeau
添加对将 pandas 扩展数据类型转换为数组的初始支持 (GH#10018) James Bourbeau
移除 randomgen 支持 (GH#9987) Eray Aslan

Bug 修复¶

当重新分块到相同大小的未知大小时跳过分块 (GH#10027) Hendrik Makait
自定义工具将 parquet 过滤器转换为 pyarrow 表达式 (GH#9885) Richard (Rick) Zamora
在填充时将 numpy 标量和 0d 数组视为标量 (GH#9653) Justus Magin
在自适应 read_parquet 操作后修复 parquet 覆盖行为 (GH#10002) Richard (Rick) Zamora

文档¶

添加和更新数据传输部分的文档 (GH#10022) Miles

维护¶

从 pyarrow parquet 引擎中移除过时的 hive-partitioning 代码 (GH#10039) Richard (Rick) Zamora
将最小支持的 pyarrow 提升至 7.0 (GH#10024) James Bourbeau
恢复“准备丢弃 packunpack (GH#9994) (GH#10037) Florian Jetter”
在报告前让 codecov 等待更多构建 (GH#10031) James Bourbeau
准备 drop packunpack (GH#9994) Florian Jetter
添加启用 pyarrow 字符串的 CI 作业 (GH#10017) James Bourbeau
修复 pandas 2.0 的 test_groupby_dropna_with_agg (GH#10001) Irina Truong
修复 pandas 2.0 的 test_pickle_roundtrip (GH#10011) James Bourbeau

2023.3.0¶

发布于2023年3月1日

Bug 修复¶

Bag 不能将 p2p 作为 shuffle 的默认设置 (GH#10005) Florian Jetter

文档¶

默认P2P的小跟进 (GH#10008) James Bourbeau

维护¶

为可选的 jinja2 依赖添加最低版本 (GH#9999) Charles Blackmon-Luca

2023年2月1日¶

发布于2023年2月24日

备注

此版本将默认的 DataFrame 洗牌算法更改为 p2p，以提高稳定性和性能。在此了解更多，并请在此讨论中提供任何反馈。

如果你在使用这个新算法时遇到问题，请参阅文档以获取更多信息，以及如何切换回旧模式。

增强功能¶

默认启用P2P混洗 (GH#9991) Florian Jetter
P2P 重新分块 (GH#9939) Hendrik Makait
为 read_parquet 提供高效的 dataframe.convert-string 支持 (GH#9979) Irina Truong
允许 DataFrame 合并的 p2p 洗牌关键字参数 (GH#9900) Florian Jetter
将 split_row_groups 的默认值更改为“infer” (GH#9637) Richard (Rick) Zamora
添加将字符串数据转换为使用 pyarrow 字符串的选项 (GH#9926) James Bourbeau
添加对多列 sort_values 的支持 (GH#8263) Charles Blackmon-Luca
dask.array 中的 Generator 基于随机数生成 (GH#9038) Eray Aslan
支持 pandas 2.0 兼容性的简单 groupby 聚合的 numeric_only (GH#9889) Irina Truong

Bug 修复¶

修复分析器图表未与上下文管理器进入时间对齐的问题 (GH#9739) David Hoese
放松 dask.dataframe assert_eq 类型检查 (GH#9989) Matthew Rocklin
为 pandas 2.0 恢复 describe 兼容性 (GH#9982) James Bourbeau

文档¶

改进 Dask 文档的部署 (GH#9912) Sarah Charlotte Johnson
更多关于 DataFrame.partitions 的文档 (GH#9976) Tom Augspurger
更新文档，增加关于默认延迟调度器 (GH#9903) 的更多信息 Guillaume Eynard-Bontemps
部署考虑文档 (GH#9933) Gabe Joseph

维护¶

暂时重新运行不稳定测试 (GH#9983) James Bourbeau
更新 FULL_RAPIDS_VER/FULL_UCX_PY_VER 的解析 (GH#9990) Charles Blackmon-Luca
将最低支持版本提升至 pandas=1.3 和 numpy=1.21 (GH#9950) James Bourbeau
修复 std 以与 pandas 2.0 的 numeric_only 一起工作 (GH#9960) Irina Truong
暂时 xfail test_roundtrip_partitioned_pyarrow_dataset (GH#9977) James Bourbeau
修复 test_idxmaxmin 中的写时复制失败 (GH#9944) Patrick Hoefler
更新 pre-commit 版本 (GH#9955) crusaderky
修复 pandas 2.0 的 test_groupby_unaligned_index (GH#9963) Irina Truong
取消 xfail test_set_index_overlap_2 对于 pandas 2.0 (GH#9959) James Bourbeau
修复 pandas 2.0 的 test_merge_by_index_patterns (GH#9930) Irina Truong
将 jacobtomlinson/gha-find-replace 从 2 升级到 3 (GH#9953) James Bourbeau
修复 test_rolling_agg_aggregate 以兼容 pandas 2.0 (GH#9948) Irina Truong
将 black 更新到 23.1.0 (GH#9956) crusaderky
在 Python 3.8 和 3.10 上运行 GPU 测试 (GH#9940) Charles Blackmon-Luca
修复 pandas 2.0 的 test_to_timestamp (GH#9932) Irina Truong
修复 groupby value_counts 在 pandas 2.0 兼容性中的错误 (GH#9928) Irina Truong
配置转换器：将所有短横线替换为下划线 (GH#9945) Jacob Tomlinson
CI: 在上游测试构建中使用 nightly wheel 安装 pyarrow (GH#9873) Joris Van den Bossche

2023.2.0¶

发布于2023年2月10日

增强功能¶

在 pandas 2.0 中更新 quantile 的 numeric_only 默认值 (GH#9854) Irina Truong
当分区匹配时，使 repartition 成为无操作（GH#9924） James Bourbeau
在 pandas 2.0 中更新 describe 的 datetime_is_numeric 行为 (GH#9868) Irina Truong
更新 value_counts 以在 pandas 2.0 中返回正确的名称 (GH#9919) Irina Truong
在 pandas 2.0 中支持新的 axis=None 行为用于某些归约操作 (GH#9867) James Bourbeau
在 nanmin 和 nanmax 的块级别过滤掉所有-nan RuntimeWarning (GH#9916) Julia Signell
修复 pandas 2.0 的数值 meta_nonempty 索引 creation (GH#9908) James Bourbeau
修复 pandas 2.0 的 DataFrame.info() 测试 (GH#9909) James Bourbeau

Bug 修复¶

修复 GroupBy.value_counts 对多个 groupby 列的处理 (GH#9905) Charles Blackmon-Luca

文档¶

修复开发指南中的一些过时信息/拼写错误 (GH#9893) Patrick Hoefler
在 drop_duplicates 文档字符串中添加关于 keep=False 的注释 (GH#9887) Jayesh Manani
为 dask 数组添加 meta 详细信息 (GH#9886) Jayesh Manani
澄清任务流显示的行数多于线程数 (GH#9906) Gabe Joseph

维护¶

修复 pandas 2.0 的 test_numeric_column_names (GH#9937) Irina Truong
修复 pandas 2.0 的 dask/dataframe/tests/test_utils_dataframe.py 测试 (GH#9788) James Bourbeau
将 index.is_numeric 替换为 is_any_real_numeric_dtype 以兼容 pandas 2.0 (GH#9918) Irina Truong
避免在dask工具中导入``pd.core`` (GH#9907) Matthew Roeschke
在拉取请求上使用标签进行 upstream 构建 (GH#9910) James Bourbeau
扩展对 sqlalchemy.exc.RemovedIn20Warning 的异常捕获 (GH#9904) James Bourbeau
在CI中暂时限制 sqlalchemy < 2 (GH#9897) James Bourbeau
将 isort 版本更新至 5.12.0 (GH#9895) Lawrence Mitchell
在 read_csv 中移除未使用的 skiprows 变量 (GH#9892) Patrick Hoefler

2023年1月1日¶

发布于2023年1月27日

增强功能¶

在 Array 和 _Frame 中添加 to_backend 方法 (GH#9758) Richard (Rick) Zamora
pandas 2.0 中时间戳索引分区的微小修复 (GH#9872) Irina Truong
将 numeric_only 添加到 DataFrame.cov 和 DataFrame.corr (GH#9787) James Bourbeau
修复了 pandas 2.0 中 group_keys 默认值更改的相关问题 (GH#9855) Irina Truong
infer_datetime_format 对 pandas 2.0 的兼容性 (GH#9783) James Bourbeau

Bug 修复¶

修复 BroadcastJoinLayer 中的序列化错误 (GH#9871) Richard (Rick) Zamora
在 DataFrame.merge 中满足 broadcast 参数 (GH#9852) Richard (Rick) Zamora
修复 pyarrow parquet 列统计计算 (GH#9772) aywandji

文档¶

修复“重复的显式目标名称”文档警告 (GH#9863) Chiara Marmo
修复“定义新的集合后端”文档中的代码格式问题 (GH#9864) Chiara Marmo
更新内存图表的仪表板文档 (GH#9768) Jayesh Manani
添加关于 no-worker 任务的文档部分 (GH#9839) Florian Jetter

维护¶

检测 distributed 调度器的额外更新 (GH#9890) James Bourbeau
将 gpuCI 的 RAPIDS_VER 更新为 23.04 (GH#9876)
集合与 distributed 默认值之间的反向优先级 (GH#9869) Florian Jetter
更新 xarray-contrib/issue-from-pytest-log 到版本 1.2.6 (GH#9865) James Bourbeau
不需要dask配置shuffle默认值 (GH#9826) Florian Jetter
取消 xfail datetime64 Parquet 往返测试以适应新的 fastparquet (GH#9811) James Bourbeau
添加选项以手动运行 upstream CI 构建 (GH#9853) James Bourbeau
在CI构建中使用自定义超时 (GH#9844) James Bourbeau
从 make_blockwise_graph 中移除 kwargs (GH#9838) Florian Jetter
在 test_setitem_extended_API_2d_mask 中忽略 persist 调用的警告 (GH#9843) Charles Blackmon-Luca
修复本地运行S3测试 (GH#9833) James Bourbeau

2023.1.0¶

发布于2023年1月13日

增强功能¶

即使没有设置配置，也使用 distributed 默认客户端 (GH#9808) Florian Jetter
实现 ma.where 和 ma.nonzero (GH#9760) Erik Holmgren
更新 zarr 存储创建函数 (GH#9790) Ryan Abernathey
iteritems 对 pandas 2.0 的兼容性 (GH#9785) James Bourbeau
为 pandas 的 string[python] dtype 提供准确的 sizeof (GH#9781) crusaderky
压缩重复引用 pandas 对象类型的 sizeof() (GH#9776) crusaderky
GroupBy.__getitem__ 对 pandas 2.0 的兼容性 (GH#9779) James Bourbeau
append 对 pandas 2.0 的兼容性 (GH#9750) James Bourbeau
get_dummies 对 pandas 2.0 的兼容性 (GH#9752) James Bourbeau
is_monotonic 对 pandas 2.0 的兼容性 (GH#9751) James Bourbeau
numpy=1.24 兼容性 (GH#9777) James Bourbeau

文档¶

删除 to_json 文档字符串中重复的 encoding 关键字参数 (GH#9796) Sultan Orazbayev
在 LocalCluster 文档中提及 SubprocessCluster (GH#9784) Hendrik Makait
将 Prometheus 文档移动到 dask/distributed (GH#9761) crusaderky

维护¶

在 test_setitem_extended_API_2d_mask 中暂时忽略 RuntimeWarning (GH#9828) James Bourbeau
修复不稳定的 test_threaded.py::test_interrupt (GH#9827) Hendrik Makait
在 upstream 报告中更新 xarray-contrib/issue-from-pytest-log (GH#9822) James Bourbeau
在gpuCI构建中安装``pip`` dask (GH#9816) Charles Blackmon-Luca
将 actions/checkout 从 3.2.0 升级到 3.3.0 (GH#9815)
解决 mindeps 测试中的 sqlalchemy 导入失败问题 (GH#9809) Charles Blackmon-Luca
忽略 sqlalchemy.exc.RemovedIn20Warning (GH#9801) Thomas Grainger
xfail datetime64 对 pandas 2.0 的 Parquet 往返测试 (GH#9786) James Bourbeau
移除 sqlachemy 1.3 兼容性 (GH#9695) McToel
减少预期 DoK 稀疏矩阵的大小 (GH#9775) Elliott Sales de Andrade
从 dask/dataframe/io/orc/utils.py 中移除可执行标志 (GH#9774) Elliott Sales de Andrade

2022.12.1¶

发布于2022年12月16日

增强功能¶

支持 dtype_backend="pandas|pyarrow" 配置 (GH#9719) James Bourbeau
在 dask.dataframe 中支持 cupy.ndarray 到 cudf.DataFrame 的分发 (GH#9579) Richard (Rick) Zamora
在 read_parquet 中使文件系统后端可配置 (GH#9699) Richard (Rick) Zamora
高效序列化所有 pyarrow 扩展数组 (GH#9740) James Bourbeau

Bug 修复¶

修复在重新分区时使用 tz 感知型 datetime 索引的错误 (GH#9741) James Bourbeau
聚合中的部分函数可能具有参数 (GH#9724) Irina Truong
添加对 pyarrow 支持的扩展数据类型的简单操作支持 (GH#9717) James Bourbeau
在 SeriesGroupby 情况下正确重命名列 (GH#9716) Lawrence Mitchell

文档¶

修复集合后端文档中的URL链接拼写错误 (GH#9748) Shawn
更新 Prometheus 文档 (GH#9696) Hendrik Makait

维护¶

将 zarr 添加到 Python 3.11 CI 环境 (GH#9771) James Bourbeau
添加对 Python 3.11 的支持 (GH#9708) Thomas Grainger
将 actions/checkout 从 3.1.0 升级到 3.2.0 (GH#9753)
避免 np.bool8 弃用警告 (GH#9737) James Bourbeau
确保在 upstream CI 构建中不会覆盖开发包 (GH#9731) James Bourbeau
在测试期间避免添加 data.h5 和 mydask.html 文件 (GH#9726) Thomas Grainger

2022.12.0¶

于2022年12月2日发布

增强功能¶

从 read_parquet 中移除基于统计的 set_index 逻辑 (GH#9661) Richard (Rick) Zamora
为 dd.read_parquet 添加 use_nullable_dtypes 支持 (GH#9617) Ian Rose
修复 map_overlap 以接受 pandas 参数 (GH#9571) Fabien Aulaire
修复 pandas 1.5+ 在 .str.split(..., expand=True) 中的 FutureWarning (GH#9704) Jacob Hayes
为 groupby 切片启用列投影 (GH#9667) Richard (Rick) Zamora
支持重复列的累积函数 (GH#9685) Ben
改进失败的backend调度调用的错误信息 (GH#9677) Richard (Rick) Zamora

Bug 修复¶

在arrow parquet引擎中修订元创建 (GH#9672) Richard (Rick) Zamora
修复 da.fft.fft 以支持类数组输入 (GH#9688) James Bourbeau
修复 groupby 在按名称分组索引时的聚合 (GH#9646) Richard (Rick) Zamora

维护¶

避免在 test_inheriting_class 中出现 PytestReturnNotNoneWarning (GH#9707) Thomas Grainger
修复不稳定的 test_dataframe_aggregations_multilevel (GH#9701) Richard (Rick) Zamora
更新 mypy 版本 (GH#9697) crusaderky
在 test_map_partitions_df_input 中禁用仪表板 (GH#9687) James Bourbeau
在 upstream 构建中使用最新的 xarray-contrib/issue-from-pytest-log (GH#9682) James Bourbeau
xfail ttest_1samp 用于上游 scipy (GH#9670) James Bourbeau
将 gpuCI 的 RAPIDS_VER 更新为 23.02 (GH#9678)

2022.11.1¶

发布于2022年11月18日

增强功能¶

限制 bokeh=3 支持 (GH#9673) Gabe Joseph
fastparquet 进化的更新 (GH#9650) Martin Durant

维护¶

在gpuCI更新工作流中更新 ga-yaml-parser 步骤 (GH#9675) Charles Blackmon-Luca
恢复 importlib.metadata 的解决方法 (GH#9658) James Bourbeau
修复 mindeps-distributed CI 构建以处理未安装 numpy/pandas 的情况 (GH#9668) James Bourbeau

2022.11.0¶

发布于2022年11月15日

增强功能¶

将 from_dict 实现泛化，以允许从其他后端使用 (GH#9628) GALI PREM SAGAR

Bug 修复¶

避免在 dask.dataframe.core 中使用 pandas 构造函数 (GH#9570) Richard (Rick) Zamora
修复 sort_values 与 Timestamp 数据 (GH#9642) James Bourbeau
在 _get_partitions 中泛化数组检查并移除 pd.Index 调用 (GH#9634) Benjamin Zaitlen
修复 read_csv 在 header=0 和 names 时的行为 (GH#9614) Richard (Rick) Zamora

文档¶

更新队列仪表板文档 (GH#9660) Gabe Joseph
从文档字符串中移除 import dask as d (GH#9644) Matthew Rocklin
修复 read_parquet 文档字符串中对分区文档的链接 (GH#9636) qheuristics
在 array/bag/dataframe 部分添加 API 文档链接 (GH#9630) Matthew Rocklin

维护¶

使用 conda-incubator/setup-miniconda@v2.2.0 (GH#9662) John A Kirkham
允许 bokeh=3 (GH#9659) James Bourbeau
使用 Python 3.10 运行 upstream 构建 (GH#9655) James Bourbeau
在mindeps测试中固定 pyyaml 版本 (GH#9640) Charles Blackmon-Luca
添加 pre-commit 以捕捉 breakpoint() (GH#9638) James Bourbeau
将 xarray-contrib/issue-from-pytest-log 从 1.1 升级到 1.2 (GH#9635)
移除 blosc 引用 (GH#9625) Naty Clementi
升级 mypy 并删除未使用的注释 (GH#9616) Hendrik Makait
强化 test_repartition_npartitions (GH#9585) Richard (Rick) Zamora

2022.10.2¶

发布于2022年10月31日

这是一个热修复，本仓库没有变化。必要的修复在 dask/distributed 中，但我们决定为了保持一致性而更新此版本号。

2022.10.1¶

发布于2022年10月28日

增强功能¶

启用命名聚合语法 (GH#9563) ChrisJar
为 set_index 添加扩展 dtype 支持 (GH#9566) James Bourbeau
重新设计数组 HTML 表示以提高清晰度 (GH#9519) Shingo OKAWA

Bug 修复¶

修复 merge 与空左 DataFrame (GH#9578) Ian Rose

文档¶

添加关于默认限制线程过度订阅的注释 (GH#9592) James Bourbeau
使用 sphinx-click 为 dask CLI (GH#9589) James Bourbeau
修复信号量API文档 (GH#9584) James Bourbeau
在 map_overlap 文档字符串中渲染元描述 (GH#9568) James Bourbeau

维护¶

在 Dask 中要求 Click 7.0+ (GH#9595) John A Kirkham
暂时限制 bokeh<3 (GH#9607) James Bourbeau
解决 upstream CI 中的 importlib 相关失败 (GH#9604) Charles Blackmon-Luca
改进 upstream CI 报告 (GH#9603) James Bourbeau
修复 upstream CI 报告 (GH#9602) James Bourbeau
移除 setuptools 主机依赖，添加 CLI 入口点 (GH#9600) Charles Blackmon-Luca
更多 Backend 调度类类型注解 (GH#9573) Ian Rose

2022.10.0¶

发布于2022年10月14日

新功能¶

Dask-Array 和 Dask-DataFrame 中的 IO 后端库调度 (GH#9475) Richard (Rick) Zamora
添加新的可扩展CLI (GH#9283) Doug Davis

增强功能¶

按组中位数 (GH#9516) Ian Rose
修复数组复制不是空操作 (GH#9555) David Hoese
在 map_overlap 中添加对字符串 timedelta 的支持 (GH#9559) Nicolas Grandemange
基于Shuffle的单函数分组 (GH#9504) Ian Rose
使 datetime.datetime 幂等化标记 (GH#9532) Martin Durant
支持对 datetime.time 进行分词 (GH#9528) Tim Paine

Bug 修复¶

避免在延迟调度注册中的竞争条件 (GH#9545) James Bourbeau
不允许对 int 数据类型使用 np.nan 进行 setitem 操作 (GH#9531) Doug Davis
稳定演示列投影 (GH#9538) Ian Rose
确保 delayed 中的 pickle 可序列化的二元操作 (GH#9540) Ian Rose
选择时修复项目CSV列（GH#9534） Martin Durant

文档¶

更新 Parquet 最佳实践 (GH#9537) Matthew Rocklin

维护¶

限制 tiledb-py 版本以避免 CI 失败 (GH#9569) James Bourbeau
将 actions/github-script 从 3 升级到 6 (GH#9564)
将 actions/stale 从 4 升级到 6 (GH#9551)
将 peter-evans/create-pull-request 从 3 升级到 4 (GH#9550)
将 actions/checkout 从 2 升级到 3.1.0 (GH#9552)
将 codecov/codecov-action 从 1 升级到 3 (GH#9549)
将 the-coding-turtle/ga-yaml-parser 从 0.1.1 升级到 0.1.2 (GH#9553)
移动 dependabot 配置文件 (GH#9547) James Bourbeau
为GitHub actions添加dependabot (GH#9542) James Bourbeau
在 Windows 和 Linux 上运行 mypy (GH#9530) crusaderky
将 gpuCI 的 RAPIDS_VER 更新为 22.12 (GH#9524)

2022年9月2日¶

发布于2022年9月30日

增强功能¶

从数组自动分块中移除因子分解逻辑 (GH#9507) James Bourbeau

文档¶

在独立Python脚本中运行Dask的文档 (GH#9513) James Bourbeau
澄清自定义图多进程示例 (GH#9511) nouman

维护¶

分组排序上游兼容性 (GH#9486) Ian Rose

2022.9.1¶

发布于2022年9月16日

新功能¶

添加 DataFrame 和 Series 的 median 方法 (GH#9483) James Bourbeau

增强功能¶

Shuffle groupby 默认 (GH#9453) Ian Rose
按列表过滤 (GH#9419) Greg Hayes
将 distributed.utils.key_split 功能添加到 dask.utils.key_split (GH#9464) Luke Conibear

Bug 修复¶

修复重叠问题，使 set_index 不会删除行 (GH#9423) Julia Signell
修复当 ddf.columns.min() 引发时分配 pandas Series 到列的问题 (GH#9485) Erik Welch
修复元数据比较 stack_partitions (GH#9481) James Bourbeau
为 split_out 提供默认值 (GH#9493) Lawrence Mitchell

弃用¶

允许 split_out 为 None，在 groupby().aggregate() 中默认为 1 (GH#9491) Ian Rose

文档¶

修复 enforce_metadata 文档，不检查 dtypes (GH#9474) Nicolas Grandemange
修复 it's –> its 的拼写错误 (GH#9484) Nat Tabris

维护¶

使用某些日期时间序列而不是其他序列解决parquet写入失败的变通方法 (GH#9500) Ian Rose
从 pandas 中过滤掉 numeric_only 警告 (GH#9496) James Bourbeau
避免在不必要的地方使用 set_index(..., inplace=True) (GH#9472) James Bourbeau
避免传递长度为一的 groupby 键列表 (GH#9495) James Bourbeau
根据 cudf 对 group_keys 的支持更新 test_groupby_dropna_cudf (GH#9482) James Bourbeau
移除 dd.from_bcolz (GH#9479) James Bourbeau
在 pre-commit 钩子中添加了 flake8-bugbear (GH#9457) Luke Conibear
在函数定义中绑定循环变量 (B023) (GH#9461) Luke Conibear
添加了比较的断言 (B015) (GH#9459) Luke Conibear
在CI工作流中设置顶级默认shell (GH#9469) James Bourbeau
移除了未使用的循环控制变量 (B007) (GH#9458) Luke Conibear
替换常量属性的 getattr 调用 (B009) (GH#9460) Luke Conibear
固定 libprotobuf 以允许在上游 CI 构建中使用 nightly pyarrow (GH#9465) Joris Van den Bossche
替换默认参数的可变数据结构 (B006) (GH#9462) Luke Conibear
更改了 flake8 镜像并更新了版本 (GH#9456) Luke Conibear

2022.9.0¶

发布于2022年9月2日

增强功能¶

为 groupby 聚合启用自动列投影 (GH#9442) Richard (Rick) Zamora
在 NEP-13/17 调度中接受超类 (GH#6710) Gabe Joseph

Bug 修复¶

在同一 by 列上进行累积操作时，内部重命名 by 列 (GH#9430) Pavithra Eswaramoorthy
修复 get_group 与分类变量 (GH#9436) Pavithra Eswaramoorthy
修复与缓存相关的 MaterializedLayer.cull 性能退化 (GH#9413) Richard (Rick) Zamora

文档¶

添加维护者文档页面 (GH#9309) James Bourbeau

维护¶

恢复跳过的 fastparquet 测试 (GH#9439) Pavithra Eswaramoorthy
tmpfile 在空扩展名时不以句号结束文件 (GH#9429) Hendrik Makait
跳过最新版本中失败的 fastparquet 测试 (GH#9432) James Bourbeau

2022年8月1日¶

发布于2022年8月19日

新功能¶

实现 ma.*_like 函数 (GH#9378) Ruth Comer

增强功能¶

Fuse 兼容的注释 (GH#9402) Ian Rose
基于Shuffle的高基数分组聚合 (GH#9302) Richard (Rick) Zamora
解包 namedtuple (GH#9361) Hendrik Makait

Bug 修复¶

修复 SeriesGroupBy 在 axis=1 时的累积函数 (GH#9377) Pavithra Eswaramoorthy
稀疏数组缩减 (GH#9342) Ian Rose
在使用带有索引的分类列时修复 make_meta (GH#9348) Pavithra Eswaramoorthy
在 DataFrame.dropna 中不允许使用不兼容的关键字 (GH#9366) Naty Clementi
使 set_index 完全处理空数据框 (GH#8896) Julia Signell
在 unpack_collections 中改进 dataclass 处理 (GH#9345) Hendrik Makait
修复当存在一些较小的分区时的包采样 (GH#9349) Ian Rose
为 da.min/da.max 函数添加对空分区的支持 (GH#9268) geraninam

文档¶

澄清 bind() 等操作会重新生成密钥 (GH#9385) crusaderky
整合仪表盘诊断文档 (GH#9357) Sarah Charlotte Johnson
移除过时的 meta 信息 Pavithra Eswaramoorthy

维护¶

在 sizeof 中使用 entry_points 工具 (GH#9390) James Bourbeau
添加 entry_points 兼容性工具 (GH#9388) Jacob Tomlinson
为每个CI构建上传环境文件工件 (GH#9372) James Bourbeau
在CI中移除 werkzeug 的固定版本 (GH#9371) James Bourbeau
修复 dd.from_pandas 和 dd.from_delayed 的类型注解 (GH#9362) Jordan Yap

2022.8.0¶

发布于2022年8月5日

增强功能¶

确保 make_meta 不持有对数据的引用 (GH#9354) Jim Crist-Harif
在 from_pandas 中修订 divisions 逻辑 (GH#9221) Richard (Rick) Zamora
如果用户设置的索引已存在，则发出警告 (GH#9341) Julia Signell
为 da.average 添加 keepdims 关键字 (GH#9332) Ruth Comer
更改 repr 方法以避免 Layer 物化 (GH#9289) Richard (Rick) Zamora

Bug 修复¶

确保 order 关键字参数不会导致 astype 方法崩溃 (GH#9317) Genevieve Buckley
修复了 cumsum 在 cupy 分块 dask 数组上的错误 (GH#9320) Genevieve Buckley
在 _sample_reduce 中匹配输入和输出结构 (GH#9272) Pavithra Eswaramoorthy
在数组序列化中包含 meta (GH#9240) Frédéric BRIOL
修复 Index.memory_usage (GH#9290) James Bourbeau
修复 dask.dataframe.io.from_dask_array 中的除法计算 (GH#9282) Jordan Yap

文档¶

如何在自定义任务图中使用 kwargs (GH#9322) Genevieve Buckley
在 da.from_array 中添加关于顺序未保留的注释 (GH#9346) Julia Signell
为异步函数添加I/O信息 (GH#9326) Logan Norman
整理了未来IO函数的文档片段 (GH#9340) Julia Signell
在 dataframe-groupby.rst 中为 pandas df 和 Dask ddf 使用一致的变量名 (GH#9304) ivojuroro
在配置转换器中将 js-yaml 替换为 yaml.js (GH#9306) Jacob Tomlinson

维护¶

更新 da.linalg.solve 以兼容 SciPy 1.9.0 (GH#9350) Pavithra Eswaramoorthy
更新 test_getitem_avoids_large_chunks_missing (GH#9347) Pavithra Eswaramoorthy
修复“扩展 sizeof”文档标题格式 Doug Davis
在测试中导入 loop_in_thread 夹具 (GH#9337) James Bourbeau
暂时 xfail test_solve_sym_pos (GH#9336) Pavithra Eswaramoorthy
修复Dask页面中的小拼写错误（GH#9329） Shaghayegh
暂时在CI中固定 werkzeug 以避免测试套件挂起 (GH#9325) James Bourbeau
为 cupy.angle() 添加测试 (GH#9312) Peter Andreas Entschev
将 gpuCI RAPIDS_VER 更新为 22.10 (GH#9314)
在 test 额外项中添加 pandas[test] (GH#9110) Ben Beasley
将 bokeh 和 scipy 添加到 upstream CI 构建中 (GH#9265) James Bourbeau

2022年7月1日¶

发布于2022年7月22日

增强功能¶

如果所有轴都被压缩，则返回 Dask 数组 (GH#9250) Pavithra Eswaramoorthy
通过toposort报告的制作周期缩短 (GH#9068) Erik Welch
未知块切片 - 引发信息性错误 (GH#9285) Naty Clementi

Bug 修复¶

修复 HighLevelGraph.cull 中的错误 (GH#9267) Richard (Rick) Zamora
分类排序 (GH#9264) Pavithra Eswaramoorthy
使用 max``（而不是 ``sum）来计算 warnsize (GH#9235) Pavithra Eswaramoorthy
修复在使用 pyarrow 过滤分区列时的错误 (GH#9252) Richard (Rick) Zamora

文档¶

更新了分区文档以添加关于 partition_size 的注释 (GH#9288) Dylan Stewart
不要在 Array 方法中包含文档，只需引用模块文档 (GH#9244) Julia Signell
移除过时的调度器和工作器仪表板引用 (GH#9278) Pavithra Eswaramoorthy
修复一些拼写错误 (GH#9270) Tim Gates
使用 numpy 方法添加自定义聚合示例 (GH#9260) geraninam

维护¶

为 dd.from_pandas 和 dd.from_delayed 添加类型注解 (GH#9237) Michael Milton
更新 calculate_divisions 文档字符串 (GH#9275) Tom Augspurger
更新 test_plot_multiple 以适应即将发布的 bokeh 版本 (GH#9261) James Bourbeau
为常见数组属性添加类型 (GH#9255) Illviljan

2022.7.0¶

发布于2022年7月8日

增强功能¶

在 normalize_token 中支持 pathlib.PurePath (GH#9229) Angus Hollands
为属性添加 AttributeNotImplementedError 以便 IPython 全局搜索工作 (GH#9231) Erik Welch
map_overlap: 多数据框处理 (GH#9145) Fabien Aulaire
在 dask.sizeof 中读取入口点 (GH#7688) Angus Hollands

Bug 修复¶

在使用 Client(processes=False) 写入parquet数据集时修复 TypeError: 'Serialize' object is not subscriptable (GH#9015) Lucas Miguel Ponce
在 concat 空数据框时正确处理数据类型 (GH#9193) Pavithra Eswaramoorthy

文档¶

关于持久化的亮点说明 (GH#9234) Pavithra Eswaramoorthy
更新发布程序以包含更多细节和有用的命令 (GH#9215) Julia Signell
未来和Dask vs. Spark页面的更好SEO (GH#9217) Sarah Charlotte Johnson

维护¶

在列表、元组和迭代器上使用 math.prod 而不是 np.prod (GH#9232) crusaderky
仅在类型检查时导入 IPython (GH#9230) Florian Jetter
更严格的 mypy 检查 (GH#9206) crusaderky

2022年6月1日¶

发布于2022年6月24日

增强功能¶

pyodide 中的 Dask (GH#9053) Ian Rose
创建 dask.utils.show_versions (GH#9144) Sultan Orazbayev
为不支持的 numpy 操作在 dask.dataframe 对象上提供更好的错误信息。(GH#9201) Julia Signell
在 dask.array.overlap 函数中添加 allow_rechunk 关键字参数 (GH#7776) Genevieve Buckley
向 dask.utils.format_time 添加分钟和小时 (GH#9116) Matthew Rocklin
在向远程文件系统写入parquet时进行更多重试 (GH#9175) Ian Rose

Bug 修复¶

时间差确定性哈希 (GH#9213) Fabien Aulaire
枚举确定性哈希 (GH#9212) Fabien Aulaire
shuffle_group(): 避免转换为数组 (GH#9157) Mads R. B. Kristensen

弃用¶

弃用额外的 format_time 工具 (GH#9184) James Bourbeau

文档¶

更好的SEO为10分钟到Dask (GH#9182) Sarah Charlotte Johnson
更好的SEO延迟和最佳实践 (GH#9194) Sarah Charlotte Johnson
在 DataFrame str.split 访问器的文档字符串中包含已知的差异 (GH#9177) Richard Pelgrim
在 derived_from 中添加 inconsistencies 关键字 (GH#9192) Richard Pelgrim
在 delayed 最佳实践示例中添加缺失的 append (GH#9202) Ben
修复最佳实践中的缩进 (GH#9196) Sarah Charlotte Johnson
添加链接到 Genevieve Buckley 关于块大小的博客 (GH#9199) Pavithra Eswaramoorthy
更新 to_csv 文档字符串 (GH#9094) Sarah Charlotte Johnson

维护¶

更新 versioneer：从使用 SafeConfigParser 改为 ConfigParser (GH#9205) Thomas A Caswell
在CI中移除ipython hack（GH#9200） crusaderky

2022.6.0¶

发布于2022年6月10日

增强功能¶

在 HLG JupyterLab repr 中添加显示层依赖名称的功能 (GH#9081) Angelos Omirolis
添加箭头模式提取调度 (GH#9169) GALI PREM SAGAR
为 assert_eq 添加 sort_results 参数 (GH#9130) Pavithra Eswaramoorthy
将周添加到 parse_timedelta (GH#9168) Matthew Rocklin
警告：cloudpickle 并不总是确定性的 (GH#9148) Pavithra Eswaramoorthy
切换 parquet 默认引擎 (GH#9140) Jim Crist-Harif
使用确定性哈希与 _iLocIndexer / _LocIndexer (GH#9108) Fabien Aulaire
在 to_parquet pyarrow 中强制一致的架构 (GH#9131) Jim Crist-Harif

Bug 修复¶

修复 pyarrow.StringArray 的 pickle (GH#9170) Jim Crist-Harif
修复 pyarrow 引擎中的并行元数据收集 (GH#9165) Richard (Rick) Zamora
改进 pyarrow 分区逻辑 (GH#9147) James Bourbeau
pyarrow 8.0 分区修复 (GH#9143) James Bourbeau

文档¶

更好的SEO用于安装Dask和Dask DataFrame最佳实践 (GH#9178) Sarah Charlotte Johnson
更新文档中的logo页面 (GH#9167) Sarah Charlotte Johnson
在 map_partition 文档字符串中添加使用 pandas Series 的示例 (GH#9161) Alex-JG3
更新文档主题以进行品牌重塑 (GH#9160) Sarah Charlotte Johnson
Dask DataFrames 文档的更好 SEO (GH#9128) Sarah Charlotte Johnson

维护¶

从下游库的推荐实践中移除 ensure_file (GH#9171) Matthew Rocklin
测试 DataFrame 的 parquet I/O 往返，包括 pyspark (GH#9156) Ian Rose
尝试禁用 HDF5 锁定 (GH#9154) Ian Rose
将最佳实践链接到 DataFrame-parquet (GH#9150) Tom Augspurger
修复 map_partitions 中 func 参数描述的拼写错误 (GH#9149) Christopher Akiki
取消 xfail test_groupby_grouper_dispatch (GH#9139) GALI PREM SAGAR
暂时从分布式中导入清理夹具 (GH#9138) James Bourbeau
简化pyarrow parquet引擎中的分区逻辑 (GH#9041) Richard (Rick) Zamora

2022.05.2¶

发布于2022年5月26日

增强功能¶

为非 pandas 的 Grouper 对象添加一个调度，并在 GroupBy 中使用它 (GH#9074) brandon-b-miller
如果 read_parquet 和 to_parquet 文件相交，则报错 (GH#9124) Jim Crist-Harif
使用 ipycytoscape 可视化任务图 (GH#9091) Ian Rose

文档¶

修复各种拼写错误 (GH#9126) Ryan Russell

维护¶

修复不稳定的 test_filter_nonpartition_columns (GH#9127) Pavithra Eswaramoorthy
将 gpuCI 的 RAPIDS_VER 更新为 22.08 (GH#9120)
在源码发布包中包含 conftest.py` (GH#9115) Ben Beasley

2022.05.1¶

发布于2022年5月24日

新功能¶

添加 DataFrame.from_dict 类方法 (GH#9017) Matthew Powers
向 Dask DataFrame 添加 from_map 函数 (GH#8911) Richard (Rick) Zamora

增强功能¶

改进 to_parquet 错误，追加分区重叠 (GH#9102) Jim Crist-Harif
启用了用户定义的进程初始化函数 (GH#9087) ParticularMiner
在 map_partitions 错误中提及 align_dataframes=False 选项 (GH#9075) Gabe Joseph
向 dask.array.map_blocks() 添加 enforce_ndim 关键字参数 (GH#8865) ParticularMiner
实现 Series.GroupBy.fillna / DataFrame.GroupBy.fillna 方法 (GH#8869) Pavithra Eswaramoorthy
允许使用 Dask DataFrame 进行 fillna (GH#8950) Pavithra Eswaramoorthy
更新赋值的错误信息为1维dask数组 (GH#9036) Pavithra Eswaramoorthy
集合协议 (GH#8674) Doug Davis
围绕 pandas ArrowStringArray 的补丁 (GH#9024) Jim Crist-Harif
compute_as_if_collection 的创可贴 (GH#8998) Ian Rose
添加 p2p 洗牌选项 (GH#8836) Matthew Rocklin

Bug 修复¶

修复无列时的列投影 (GH#9106) Jim Crist-Harif
按块剔除 NumPy dtype (GH#9100) Ian Rose
修复 from_map 中的列投影错误 (GH#9078) Richard (Rick) Zamora
防止非数值dtypes的索引中出现空值 (GH#8963) Jorge López
修复 is_monotonic 方法以支持超过8个分区 (GH#9019) Julia Signell
处理 from_map 的枚举和生成器输入 (GH#9066) Richard (Rick) Zamora
恢复 is_dask_collection；回退到之前的实现 (GH#9062) Doug Davis
修复 Blockwise.clone 未能正确处理可迭代字面量参数的问题 (GH#8979) JSKenyon
数组 setitem 硬掩码 (GH#9027) David Hassell
修复在追加时重叠分区错误 (GH#8997) Ian Rose

弃用¶

为 read_parquet 关键字参数 chunksize 和 aggregate_files 添加预弃用警告 (GH#9052) Richard (Rick) Zamora

文档¶

文档 map_partitions 处理 args 与 kwargs 的方式，以及 partition_info 的使用 (GH#9084) Charles Blackmon-Luca
更新自定义集合文档（利用新的集合协议）(GH#9097) Doug Davis
为创建和存储 Dask DataFrame 的文档提供更好的 SEO (GH#9098) Sarah Charlotte Johnson
在 imread 文档字符串中澄清分块 (GH#9082) Genevieve Buckley
重新排列文档目录 (GH#9001) Matthew Rocklin
修正了 map_blocks() 文档字符串中关于关键字参数 enforce_ndim 的内容 (GH#9071) ParticularMiner
更新 DataFrame SQL 文档引用至其他库 (GH#9077) Charles Blackmon-Luca
更新关于创建和存储Dask DataFrame的页面 (GH#9025) Sarah Charlotte Johnson

维护¶

在许可证文件中包含 NUMPY_LICENSE.txt (GH#9113) Ben Beasley
在安装 nightly pandas 时增加重试次数 (GH#9103) James Bourbeau
在上游构建中强制使用夜间版本的 pyarrow (GH#9095) Joris Van den Bossche
改进 ensure_unicode 的对象处理和测试 (GH#9059) John A Kirkham
在上游构建中强制使用夜间版本的 pyarrow (GH#8993) Joris Van den Bossche
对 is_dask_collection 的额外检查 (GH#9054) Doug Davis
更新 ensure_bytes (GH#9050) John A Kirkham
添加文件末尾预提交钩子 (GH#9045) James Bourbeau
添加 codespell 预提交钩子 (GH#9040) James Bourbeau
移除 HDFS 测试 (GH#9039) Jim Crist-Harif
修复不稳定的 test_reductions_2D (GH#9037) Jim Crist-Harif
防止 codecov 过早通知失败 (GH#9031) Jim Crist-Harif
仅在 macOS 上测试 Python 3.9 (GH#9029) Jim Crist-Harif
更新 to_timedelta 默认单位 (GH#9010) Pavithra Eswaramoorthy

2022.05.0¶

发布于2022年5月2日

亮点¶

这是针对此问题的错误修复版本。

文档¶

在 2022.04.2 发布说明中添加亮点部分 (GH#9012) James Bourbeau

2022.04.2¶

发布于2022年4月29日

亮点¶

此版本包括对 dask.dataframe.read_parquet 和 dask.dataframe.to_parquet 的几个弃用/破坏性API更改：

to_parquet 默认不再写入 _metadata 文件。如果你想写入一个 _metadata 文件，可以传入 write_metadata_file=True。
read_parquet 现在默认使用 split_row_groups=False，这会导致在读取 parquet 数据集时，每个 parquet 文件对应一个 Dask 数据帧分区。如果你处理的是大型 parquet 文件，你可能需要设置 split_row_groups=True 来减少分区大小。
read_parquet 不再默认计算分区。如果你需要 read_parquet 返回带有已知分区的数据框，请设置 calculate_divisions=True。
read_parquet 已弃用 gather_statistics 关键字参数。请改用 calculate_divisions 关键字参数。
read_parquet 已弃用 require_extensions 关键字参数。请改用 parquet_file_extension 关键字参数。

新功能¶

将 removeprefix 和 removesuffix 添加为 StringMethods (GH#8912) Jorge López

增强功能¶

在 to_parquet 中调用 fs.invalidate_cache (GH#8994) Jim Crist-Harif
将 to_parquet 默认值更改为 write_metadata_file=None (GH#8988) Jim Crist-Harif
让 arg 减少传递 keepdims (GH#8926) Julia Signell
在 read_parquet 中将 split_row_groups 的默认值更改为 False (GH#8981) Richard (Rick) Zamora
改进 da.reshape 的 NotImplementedError 消息 (GH#8987) Jim Crist-Harif
简化 to_parquet 计算路径 (GH#8982) Jim Crist-Harif
如果你尝试在 Dask 对象上使用 vindex ，则会引发错误 (GH#8945) Julia Signell
当指定了预缓存方法时，避免使用 pre_buffer=True (GH#8957) Richard (Rick) Zamora
from_dask_array 使用 blockwise 而不是合并图表 (GH#8889) Bryan Weber
使用 pre_buffer=True 以支持 “pyarrow” Parquet 引擎 (GH#8952) Richard (Rick) Zamora

Bug 修复¶

在 da.full 中正确处理 dtype=None (GH#8954) Tom White
修复由 blockwise 融合引起的 dask-sql 错误 (GH#8989) Richard (Rick) Zamora
to_parquet 对非字符串列名报错 (GH#8990) Jim Crist-Harif
确保 da.roll 在形状为 0 时也能工作 (GH#8925) Julia Signell
修复 set_index 的递归错误问题 (GH#8967) Paul Hobson
当 produces_keys=True 时，字符串化 BlockwiseDepDict 映射值 (GH#8972) Richard (Rick) Zamora
在 DataFrame.from_delayed 中使用 DataFram`eIOLayer (GH#8852) Richard (Rick) Zamora
检查 read_parquet 中 in 谓词的值是否正确 (GH#8846) Bryan Weber
修复零维数组缩减的错误 (GH#8930) Tom White
在使用 np.linspace 进行 read_sql_query 中的划分时指定 dtype (GH#8940) Cheun Hong

弃用¶

从 read_parquet 中弃用 gather_statistics (GH#8992) Richard (Rick) Zamora
将 require_extension 更改为顶层 parquet_file_extension read_parquet 关键字参数 (GH#8935) Richard (Rick) Zamora

文档¶

在文档中更新 write_metadata_file 讨论 (GH#8995) Richard (Rick) Zamora
更新 DataFrame.merge 文档字符串 (GH#8966) Pavithra Eswaramoorthy
在 array.blockwise() 中为参数 align_arrays 添加了描述 (GH#8977) ParticularMiner
建议不要在数组的块轴上使用 map_block(drop_axis=...) (GH#8921) ParticularMiner
在文档中为代码片段添加复制按钮 (GH#8956) James Bourbeau

维护¶

Pandas 1.5.0 兼容性 (GH#8961) Ian Rose
在CI的分布式环境中添加 pytest-timeout (GH#8986) Julia Signell
改进 read_parquet 文档字符串格式 (GH#8971) Bryan Weber
移除 pytest.warns(None) (GH#8924) Pavithra Eswaramoorthy
将 Python 3.10 作为支持的文档 (GH#8976) Eray Aslan
parse_timedelta 选项以强制显式单位 (GH#8969) crusaderky
mypy 兼容性 (GH#8854) Paul Hobson
为 Dask & Parquet 添加文档页面 (GH#8899) Jim Crist-Harif
添加配置以忽略 blame 中的 revs (GH#8933) Bryan Weber

2022.04.1¶

发布于2022年4月15日

新功能¶

添加缺失的 NumPy ufuncs：abs、left_shift、right_shift、positive。 (GH#8920) Tom White

增强功能¶

当 write_metadata_file=False 时，避免在 pyarrow 中收集 parquet 元数据 (GH#8906) Richard (Rick) Zamora
dd.read_csv() 中通配符路径失败的更好错误信息（修复 #8878）(GH#8908) Roger Filmyer
对于 dd.Series 上的非 ufunc 逐元素函数，返回 da.Array 而不是 dd.Series (GH#8558) Julia Signell
让 get_dummies 在 map_partitions 中使用 meta 计算 (GH#8898) Julia Signell
掩码标量输入到 da.from_array (GH#8895) David Hassell
在 merge_asof 中为重复的 kwargs 引发 ValueError (GH#8861) Bryan Weber

Bug 修复¶

使 is_monotonic 在某些分区为空时也能工作 (GH#8897) Julia Signell
修复 da.from_array 中 inline_array=False 时的自定义获取器 (GH#8903) Ian Rose
正确处理 rechunk 的字典规范。(GH#8859) Richard
修复 merge_asof：如果 left_on == right_on，则删除索引列 (GH#8874) Gil Forsyth

弃用¶

警告用户 engine='auto' 将在未来发生变化 (GH#8907) Jim Crist-Harif
从 parquet API 中移除 pyarrow-legacy 引擎 (GH#8835) Richard (Rick) Zamora

文档¶

添加关于 dask.array.dot 缺少参数 out 的注释 (GH#8913) Francesco Andreuzzi
更新 DataFrame.query 文档字符串 (GH#8890) Pavithra Eswaramoorthy

维护¶

不要在大整数数据上测试 da.prod (GH#8893) Jim Crist-Harif
在无互联网连接时失败的测试中添加 network 标记 (GH#8881) Paul Hobson
修复 gpuCI GHA 版本 (GH#8891) Charles Blackmon-Luca
xfail/skip 一些不稳定的 distributed 测试 (GH#8887) Jim Crist-Harif
从 ArrowDatasetEngine 中移除未使用的（已弃用的）代码 (GH#8885) Richard (Rick) Zamora
为常用工具函数添加轻量类型检查，第二部分 (GH#8867) crusaderky
sample() 的限制文档 (GH#8858) Nadiem Sissouno

2022.04.0¶

发布于2022年4月1日

备注

这是第一个支持 Python 3.10 的版本

新功能¶

添加 Python 3.10 支持 (GH#8566) James Bourbeau

增强功能¶

在 dtype.itemsize 上添加检查以生成有用的错误 (GH#8860) Davide Gavio
为常用工具函数添加轻量类型注解 (GH#8848) Matthew Rocklin
为 divisions setter 添加健全性检查 (GH#8806) Jim Crist-Harif
使用 Blockwise 和 map_partitions 进行更多任务 (GH#8831) Bryan Weber

Bug 修复¶

修复 dataframe.merge_asof 以保留 right_on 列 (GH#8857) Sarah Charlotte Johnson
修复 pandas >= 1.3 在 32 位系统上的“Buffer dtype 不匹配”问题 (GH#8851) Ben Greiner
通过修改 SubgraphCallable 的 getter 来修复切片融合 (GH#8827) Ian Rose

弃用¶

移除对 PyPy 的支持 (GH#8863) James Bourbeau
在运行时删除 setuptools (GH#8855) crusaderky
移除 dataframe.tseries.resample.getnanos (GH#8834) Sarah Charlotte Johnson

文档¶

组织诊断和性能文档 (GH#8871) Naty Clementi
添加图像以解释 map_blocks 的 drop_axis 选项 (GH#8868) ParticularMiner

维护¶

将 gpuCI 的 RAPIDS_VER 更新为 22.06 (GH#8828)
在 http 中恢复 test_parquet (GH#8850) Bryan Weber
简化 gpuCI 更新工作流程 (GH#8849) Charles Blackmon-Luca

2022.03.0¶

发布于2022年3月18日

新功能¶

Bag: 为水库采样添加实现 (GH#7636) Daniel Mesejo-León
将 ma.count 添加到 Dask 数组 (GH#8785) David Hassell
将 to_parquet 的默认值更改为 compression="snappy" (GH#8814) Jim Crist-Harif
在 dask.array.reduction 中添加 weights 参数 (GH#8805) David Hassell
添加 ddf.compute_current_divisions 以在排序后的索引或列上获取分区 (GH#8517) Julia Signell

增强功能¶

在 DelayedLeaf 上传递 __name__ 和 __doc__ (GH#8820) Leo Gao
为未实现的合并 how 选项引发异常 (GH#8818) Naty Clementi
将 Bag.map_partitions 移动到 Blockwise (GH#8646) Richard (Rick) Zamora
改进格式错误的配置文件的错误信息 (GH#8801) Jim Crist-Harif
修订列投影优化以捕捉常见的 dask-sql 模式 (GH#8692) Richard (Rick) Zamora
空分区的有用错误 (GH#8789) Pavithra Eswaramoorthy
Scipy 1.8.0 兼容性：将私有类复制到 dask/array/stats.py (GH#8694) Julia Signell
在使用多种调度器时，如果其中一种是 distributed ，则发出警告 (GH#8700) Pedro Silva

Bug 修复¶

修复 read_parquet 中应用 != 过滤器的错误 (GH#8824) Richard (Rick) Zamora
修复当直接传递 dask Index 时的 set_index (GH#8680) Paul Hobson
修复 tensordot 中无限制内存使用的问题 (GH#7980) Genevieve Buckley
如果 hdf 文件为空，不要在元数据创建时失败（GH#8809） Julia Signell
更新 clone_key("x") 以保留前缀 (GH#8792) crusaderky
修复基于 pyarrow 的 read_parquet 中的“物理”列错误 (GH#8775) Richard (Rick) Zamora
修复 groupby.shift 在洗牌后由于未排序的分区导致的错误 (GH#8782) kori73
修复序列化错误 (GH#8786) Richard (Rick) Zamora

弃用¶

将诊断 bokeh 依赖项升级到 2.4.2 (GH#8791) Charles Blackmon-Luca
弃用 bcolz 支持 (GH#8754) Pavithra Eswaramoorthy
完成将 map_overlap 默认边界 kwarg 设为 'none' (GH#8743) Genevieve Buckley

文档¶

自定义集合示例文档修复 (GH#8807) Doug Davis
将 Series.str、Series.dt 和 Series.cat 访问器添加到文档中 (GH#8757) Sarah Charlotte Johnson
修复 ddf.compute_current_divisions 的文档字符串 (GH#8793) Julia Signell
状态页面上的仪表盘文档 (GH#8648) Naty Clementi
澄清重新分区文档字符串中的 kwarg 划分 (GH#8781) Sarah Charlotte Johnson
更新 Docker 镜像以使用 ghcr.io (GH#8774) Jacob Tomlinson

维护¶

减少 gpuci pytest 并行性 (GH#8826) GALI PREM SAGAR
absolufy-imports - 无相对导入 - PEP8 (GH#8796) Julia Signell
整理数组测试中的 assert_eq 调用 (GH#8812) Julia Signell
避免使用 pytest.warns(None) (GH#8718) LSturtew
修复 test_describe_empty 以在没有全局 -Werror 的情况下工作 (GH#8291) Michał Górny
暂时在Windows上xfail graphviz测试 (GH#8794) Jim Crist-Harif
使用 packaging.parse 以实现 md5 兼容性 (GH#8763) James Bourbeau
在 FIPS 140-2 环境中使 tokenize 工作 (GH#8762) Jim Crist-Harif
在打开时标记问题和PR为’需要分类’ (GH#8761) Julia Signell
增加一些额外的测试覆盖率 (GH#8302) lrjball
指定操作版本并将 pull_request_target 更改为 pull_request (GH#8767) Julia Signell
在 da.assert_eq 中使调度器 kwarg 传递到子函数 (GH#8755) Julia Signell

2022.02.1¶

发布于2022年2月25日

新功能¶

在 dask.dataframe.pivot_table 中添加聚合函数 first 和 last (GH#8649) Knut Nordanger
为类似 pandas 的对象添加 datetime64 dtype 的 std() 支持 (GH#8523) Ben Glossner
将物化任务计数添加到 HighLevelGraph 和 Layer 的 html repr 中 (GH#8589) kori73

增强功能¶

不允许迭代 DataFrameGroupBy (GH#8696) Bryan Weber
修复在空 DataFrame 上调用 info() 后缺少换行符的问题 (GH#8727) Naty Clementi
添加 groupby.compute 作为未实现的方法 (GH#8734) Dranaxel
提升多数据框连接性能 (GH#8740) Holden Karau
为 Index 包含 bool 类型 (GH#8732) Naty Clementi
允许 ArrowDatasetEngine 子类覆盖分区写入时的 pandas->arrow 转换 (GH#8741) Joris Van den Bossche
提高 da.diag() 和 da.diagonal() 中 k-对角线提取的性能 (GH#8689) ParticularMiner
将 linspace 的创建与 numpy 匹配，当 num 等于 0 时 (GH#8676) Peter
Tokenize dataclasses (GH#8557) Gabe Joseph
更新 tokenize 以区别对待 dict 和 kwargs (GH#8655) James Bourbeau

Bug 修复¶

修复 dask.array.roll() 中滚动偏移量与输入数组大小匹配时的错误 (GH#8723) ParticularMiner
修复 normalize_function dataclass 方法 (GH#8527) Sarah Charlotte Johnson
修复零大小块的重新分块 (GH#8703) ParticularMiner
为可拾取性移动 sqlalchemy 连接的创建 (GH#8745) Julia Signell

弃用¶

放弃 Python 3.7 (GH#8572) James Bourbeau
弃用 iteritems (GH#8660) James Bourbeau
弃用 dataframe.tseries.resample.getnanos (GH#8752) Sarah Charlotte Johnson
为 pyarrow-legacy 引擎添加弃用警告 (GH#8758) Richard (Rick) Zamora

文档¶

更新变更日志中的链接拼写错误 (GH#8717) James Bourbeau
澄清 dask.visualize 文档字符串 (GH#8710) Dranaxel
更新 Docker 示例以使用当前的最佳实践 (GH#8731) Jacob Tomlinson
更新文档以包含 distributed.Client.preload (GH#8679) Bryan Weber
文档每月社交会议 (GH#8595) Thomas Grainger
为Gen2访问添加RBAC/ACL文档，即安全主体 (GH#8748) Martin Thøgersen
使用 dask-sphinx-theme 中的 Dask 配置扩展 (GH#8751) Benjamin Zaitlen

维护¶

在CI中取消固定 coverage (GH#8690) James Bourbeau
为运行测试套件添加手动触发器 (GH#8716) James Bourbeau
Xfail scheduler_HLG_unpack_import; 不稳定的测试 (GH#8724) Mike McCarty
暂时移除 scipy 上游 CI 构建 (GH#8725) James Bourbeau
将预发布版本提升至高于稳定版本 (GH#8728) Charles Blackmon-Luca
将自定义排序函数逻辑移至内部 sort_values (GH#8571) Charles Blackmon-Luca
在文档需求中固定 cloudpickle 和 scipy (GH#8737) Julia Signell
使标签器不删除标签，并在正确的位置查找文档 (GH#8746) Julia Signell
修复文档构建警告 (GH#8432) Kristopher Overholt
更新测试状态徽章 (GH#8747) James Bourbeau
修复 parquet test_pandas_timestamp_overflow_pyarrow 测试 (GH#8733) Joris Van den Bossche
仅在相关文件更改时运行PR构建 (GH#8756) Charles Blackmon-Luca

2022.02.0¶

发布于2022年2月11日

备注

这是支持 Python 3.7 的最后一个版本

新功能¶

在使用现有数组时，将 region 添加到 to_zarr 中 (GH#8590) Chris Roat
为 dask.dataframe.to_sql 添加 engine_kwargs 支持 (GH#8609) Amir Kadivar
为 read_json 添加 include_path_column 参数 (GH#8603) Bryan Weber
将 expand_dims 添加到 Dask 数组 (GH#8687) Tom White

增强功能¶

为 assert_eq 工具添加调度器选项 (GH#8610) Xinrong Meng
修复 dtype=None 时与 NumPy 的眼睛不一致问题 (GH#8685) Tom White
修复与NumPy在 axis=None 时的连接不一致问题 (GH#8686) Tom White
类型注解，第一部分 (GH#8295) crusaderky
确实允许任何可迭代对象作为 meta 传递（GH#8629） Julia Signell
在 to_parquet 中使用 map_partitions (Blockwise) (GH#8487) Richard (Rick) Zamora

Bug 修复¶

减少数组的结果不应依赖于其块结构 (GH#8637) ParticularMiner
在ACA代码路径中将占位符元数据传递给 map_partitions (GH#8643) Richard (Rick) Zamora

弃用¶

弃用 is_monotonic (GH#8653) James Bourbeau
移除一些弃用项 (GH#8605) James Bourbeau

文档¶

将 Domino Data Lab 添加到托管 / 管理的 Dask 集群 (GH#8675) Ray Bell
修复内部链接并移除已弃用的功能 (GH#8715) Julia Signell
修复不平衡的反引号。 (GH#8693) Matthias Bussonnier
添加高级图形可视化文档 (GH#8483) Genevieve Buckley
更新 ProgressBar out 参数的文档 (GH#8604) Pedro Silva
改进 dask.config.set 的文档 (GH#8705) crusaderky
在类型检查器中恢复对 mypy 的提及 (GH#8699) crusaderky

维护¶

在 get_dummies 测试中更新警告处理 (GH#8651) James Bourbeau
添加一个github变更日志模板 (GH#8714) Julia Signell
更新 LICENSE.txt 中的年份 (GH#8665) David Hoese
更新 pre-commit 版本 (GH#8691) James Bourbeau
在上游CI构建中包含 scipy (GH#8681) James Bourbeau
在CI中暂时固定 scipy < 1.8.0 (GH#8683) James Bourbeau
在GPU CI中将 scipy 固定在1.8.0以下 (GH#8698) Julia Signell
避免在 test_multi.py 中使用 pytest.warns(None) (GH#8678) James Bourbeau
更新GHA并发作业取消 (GH#8652) James Bourbeau
使 test__get_paths 对 site.PREFIXES 的设置具有鲁棒性 (GH#8644) James Bourbeau
将 gpuCI PYTHON_VER 升级到 3.9 (GH#8642) Charles Blackmon-Luca

2022.01.1¶

发布于2022年1月28日

新功能¶

添加 dask.dataframe.series.view() (GH#8533) Pavithra Eswaramoorthy

增强功能¶

更新 fastparquet + pandas 1.4.0 的 tz (GH#8626) Martin Durant
清理 pandas 兼容性的杂项测试 (GH#8623) Julia Signell
迁移到 SQLAlchemy >= 1.4 (GH#8158) McToel
Pandas 兼容性：过滤稀疏警告 (GH#8621) Julia Signell
如果 meta 不是 pandas 对象则失败 (GH#8563) Julia Signell
使用 fsspec.parquet 模块以提高远程存储 read_parquet 性能 (GH#8339) Richard (Rick) Zamora
将 DataFrame ACA 聚合移动到 HLG (GH#8468) Richard (Rick) Zamora
在 DataFrameIOLayer 中添加有关原始函数调用的可选信息 (GH#8453) Richard (Rick) Zamora
块状数组创建重构 (GH#7417) Ian Rose
重构配置默认搜索路径检索 (GH#8573) James Bourbeau
在 Bag.to_dataframe 函数中添加 optimize_graph 标志 (GH#8486) Maxim Lippeveld
确保延迟输出操作仍然返回路径列表 (GH#8498) Julia Signell
Pandas 兼容性：修复 to_frame 的 name 参数，使其不传递 None (GH#8554) Julia Signell
Pandas 兼容性：修复 axis=None 警告 (GH#8555) Julia Signell
扩展 Dask YAML 配置搜索目录 (GH#8531) abergou

Bug 修复¶

修复 groupby.cumsum 在按索引分组的序列中的问题 (GH#8588) Julia Signell
修复 pandas 方法的 derived_from (GH#8612) Thomas J. Fan
为 sort_values 强制使用布尔值 ascending (GH#8440) Charles Blackmon-Luca
修复 __setitem__ 索引的解析 (GH#8601) David Hassell
避免在切片中除以零 (GH#8597) Doug Davis

弃用¶

将 (GH#8563) 中的 meta 错误降级为警告 (GH#8628) Julia Signell
Pandas 兼容性：当 pandas >= 1.4.0 时弃用 append (GH#8617) Julia Signell

文档¶

在 DataFrame 构造函数中用 meta 替换过时的 columns 参数 (GH#8614) kori73
重构部署文档 (GH#8602) Jacob Tomlinson

维护¶

在CI中固定 coverage (GH#8631) James Bourbeau
将 cached_cumsum 导入从 dask.utils 移动 (GH#8606) James Bourbeau
将 gpuCI 的 RAPIDS_VER 更新为 22.04 (GH#8600)
更新 from_delayed 函数的 cocstring (GH#8576) Kirito1397
处理 plot_width / plot_height 的弃用 (GH#8544) Bryan Van de Ven
移除不必要的 pyyaml importorskip (GH#8562) James Bourbeau
在 DataFrame assert_eq 中指定调度器 (GH#8559) Gabe Joseph

2022.01.0¶

发布于 2022 年 1 月 14 日

新功能¶

添加 groupby.shift 方法 (GH#8522) kori73
添加 DataFrame.nunique (GH#8479) Sarah Charlotte Johnson
添加 da.ndim 以匹配 np.ndim (GH#8502) Julia Signell

增强功能¶

仅在 NumPy 版本 >= 1.22 时显示 percentile interpolation= 关键字警告 (GH#8564) Julia Signell
当 limit 和 "array.slicing.split-large-chunks" 为 None 时，引发 PerformanceWarning (GH#8511) Julia Signell
在导入时定义 normalize_seq 函数 (GH#8521) Illviljan
确保分区始终为元组 (GH#8393) Charles Blackmon-Luca
允许 bag.groupby 使用可调用的调度器 (GH#8492) Julia Signell
使用 dask-on-ray 调度器保存 Zarr 数组 (GH#8472) TnTo
在 read_bytes 中使字节块更均匀 (GH#8459) Martin Durant
通过完全移除连接，提高了 matmul() 的效率（GH#8423） ParticularMiner
在重塑dask数组时限制最大块大小 (GH#8124) Genevieve Buckley
fastparquet superthrift 的更改 (GH#8470) Martin Durant

Bug 修复¶

修复数组赋值中的布尔索引 (GH#8538) David Hassell
检测数组类对象上的默认 dtype (GH#8501) aeisenbarth
修复 optimize_blockwise 重复依赖名称的错误 (GH#8542) Richard (Rick) Zamora
更新 DataFrame.GroupBy.apply 和 transform 的警告 (GH#8507) Sarah Charlotte Johnson
在 Delayed 中跟踪 HLG 层名称 (GH#8452) Gabe Joseph
修复单项 nanmin 和 nanmax 归约 (GH#8484) Julia Signell
使 read_csv 在存在注释的情况下，通过 comment kwarg 也能正常工作 (GH#8433) Julia Signell

弃用¶

将 interpolation 替换为 method ，并将 method 替换为 internal_method (GH#8525) Julia Signell
移除每日股票演示工具 (GH#8477) James Bourbeau

文档¶

在文档中添加一个可以复制粘贴运行的连接示例 (GH#8520) kori73
在配置中提及仪表盘链接 (GH#8510) Ray Bell
修复更改日志部分的超链接 (GH#8534) Aneesh Nema
为保持一致性，对“single-machine scheduler”进行连字符处理 (GH#8519) Deepyaman Datta
在 slicing.py 中规范化doctests的空白 (GH#8512) Maren Westermann
最佳实践存储行拼写错误 (GH#8529) Michael Delgado
更新图表 (GH#8401) Sarah Charlotte Johnson
从 read_parquet 文档字符串中的 split_row_groups 移除 pyarrow 专属引用 (GH#8490) Naty Clementi

维护¶

移除过时的 LocalFileSystem 测试，这些测试在 fsspec>=2022.1.0 下失败 (GH#8565) Richard (Rick) Zamora
调整：“RuntimeWarning: 在倒数中遇到无效值” (GH#8561) crusaderky
修复 DataFrame.sem 的 skipna=None (GH#8556) Julia Signell
修复 PANDAS_GT_140 (GH#8552) Julia Signell
使用 HLG 的集合必须始终实现 __dask_layers__ (GH#8548) crusaderky
解决 import llvmlite 中的竞争条件 (GH#8550) crusaderky
为 pyyaml 设置最低版本 (GH#8545) Gaurav Sheni
在环境中添加 nodefaults 以修复 tiledb + mac 问题 (GH#8505) Julia Signell
为 setuptools 设置上限 (GH#8509) Julia Signell
添加工作流/配方以生成 Dask 夜间版本 (GH#8469) Charles Blackmon-Luca
将 gpuCI 的 CUDA_VER 升级到 11.5 (GH#8489) Charles Blackmon-Luca

2021.12.0¶

发布于2021年12月10日

新功能¶

添加 Series 和 Index 的 is_monotonic* 方法 (GH#8304) Daniel Mesejo-León

增强功能¶

按块 map_partitions 与 partition_info (GH#8310) Gabe Joseph
更好的错误消息，用于具有未知块大小的数组 (GH#8436) Doug Davis
在 Groupby 类内部使用 by 代替 index (GH#8441) Julia Signell
允许为 sort_values 使用自定义排序函数 (GH#8345) Charles Blackmon-Luca
当统计信息和分区未对齐时，向 read_parquet 添加警告 (GH#8416) Richard (Rick) Zamora
在ufuncs中支持``where``参数 (GH#8253) mihir
使可视化与计算更加一致（GH#8328） JSKenyon

Bug 修复¶

修复 map_blocks 在 name 生成中未使用自身参数的问题 (GH#8462) David Hoese
修复读取空parquet文件时的索引错误 (GH#8410) Sarah Charlotte Johnson
修复写入分区parquet数据时的可空类型错误 (GH#8400) Richard (Rick) Zamora
修复CSV头部错误 (GH#8413) Richard (Rick) Zamora
修复 nanmin/nanmax 中空块导致异常的问题 (GH#8375) Boaz Mohar

弃用¶

弃用 map_blocks 的 token 关键字参数 (GH#8464) James Bourbeau
map_overlap 中 boundary kwarg 默认值的弃用警告 (GH#8397) Genevieve Buckley

文档¶

澄清 block_info 文档 (GH#8425) Genevieve Buckley
来自alt文本冲刺的输出 (GH#8456) Sarah Charlotte Johnson
更新演讲和演示文稿 (GH#8370) Naty Clementi
更新文档“付费支持”部分中的 Anaconda 链接 (GH#8427) Martin Durant
修复了 ecosystem.rst 中 dask-gateway 链接的错误 (GH#8424) ofirr
修复 CuPy doctest 错误 (GH#8412) Genevieve Buckley

维护¶

将 Bokeh 最小版本提升至 2.1.1 (GH#8431) Bryan Van de Ven
修复以下 fsspec=2021.11.1 版本 (GH#8428) Martin Durant
将 dask/ml.py 添加到 pytest 排除列表中 (GH#8414) Genevieve Buckley
将 gpuCI 的 RAPIDS_VER 更新为 22.02 (GH#8394)
取消固定 graphviz 并在 environment-3.7 中改进包管理 (GH#8411) Julia Signell

2021.11.2¶

发布于2021年11月19日

仅每日运行 gpuCI 更新脚本 (GH#8404) Charles Blackmon-Luca
在 assert_eq 中实际忽略索引 (GH#8396) Gabe Joseph
确保单分区连接 divisions 是 tuple (GH#8389) Charles Blackmon-Luca
尝试使划分行为更清晰 (GH#8379) Julia Signell
修复 set_index partition_size 参数描述中的拼写错误 (GH#8384) FredericOdermatt
在 single_partition_join 中使用 blockwise (GH#8341) Gabe Joseph
使用更明确的键值参数 (GH#8354) Boaz Mohar
修复带有可空布尔 dtype 的 DataFrame 的 .loc (GH#8368) Marco Rossi
在测试中参数化shuffle实现 (GH#8250) Ian Rose
移除一些文档构建警告 (GH#8369) Boaz Mohar
在数组API文档中包含属性 (GH#8356) Julia Signell
修复上游的 Zarr (GH#8367) Julia Signell
固定 graphviz 以避免 Windows 和 Python 3.7 的问题 (GH#8365) Julia Signell
从模块顶部导入 graphviz.Diagraph ，而不是从 dot 导入 (GH#8363) Julia Signell

2021.11.1¶

发布于2021年11月8日

补丁发布以将 distributed 依赖更新到版本 2021.11.1。

2021.11.0¶

发布于2021年11月5日

Fx required_extension 在 read_parquet 中的行为 (GH#8351) Richard (Rick) Zamora
在 map_partitions 中添加 align_dataframes 以广播作为参数传递的数据框 (GH#6628) Julia Signell
在 dask.dataframe.loc 中更好地处理键数组/系列 (GH#8254) Julia Signell
将用户指向 Discourse (GH#8332) Ian Rose
为 to_parquet 添加 name_function 选项 (GH#7682) Matthew Powers
删除 environment-latest.yml 并更新到 Python 3.9 (GH#8275) Julia Signell
在CI中要求更新的 s3fs (GH#8336) James Bourbeau
Groupby 滚动 (GH#8176) Julia Signell
为 dask.visualize 添加更多排序诊断 (GH#7992) Erik Welch
使用 HighLevelGraph 优化 delayed (GH#8316) Ian Rose
demo_tuples 生成了格式错误的 HighLevelGraph (GH#8325) crusaderky
Dask 日历应显示本地时间的事件 (GH#8312) Genevieve Buckley
修复不稳定的 test_interrupt (GH#8314) crusaderky
弃用 AxisError (GH#8305) crusaderky
修复扩展文档中 cuDF 的名称。(GH#8311) Vyas Ramasubramani
将单个等号运算符（=）添加到 parquet 过滤器中 (GH#8300) Ayush Dattagupta
在 read_parquet 中改进对 Spark 输出的支持 (GH#8274) Richard (Rick) Zamora
添加 dask.ml 模块 (GH#6384) Matthew Rocklin
CI 修复 (GH#8298) James Bourbeau
使切片错误与NumPy匹配（GH#8248） Julia Signell
修复新sphinx主题下的API文档渲染错误 (GH#8296) Julia Signell
将 block 属性替换为 blockview 以对块进行类似数组的操作 (GH#8242) Davis Bennett
弃用 file_path 并使其能够在笔记本内保存 (GH#8283) Julia Signell

2021.10.0¶

发布于2021年10月22日

da.store 用于创建格式良好的 HighLevelGraph (GH#8261) crusaderky
CI: 在上游构建中强制使用夜间 pyarrow (GH#8281) Joris Van den Bossche
移除 chest (GH#8279) James Bourbeau
如果未安装可选依赖项，则跳过doctests (GH#8258) Genevieve Buckley
更新 tmpdir 和 tmpfile 上下文管理器文档字符串 (GH#8270) Daniel Mesejo-León
在doctests中注销回调 (GH#8276) James Bourbeau
修复文档中的拼写错误 (GH#8277) JoranDox
过期标签 GitHub 操作 (GH#8244) Genevieve Buckley
客户端关闭方法出现了两次 (GH#8273) German Shiklov
添加 pre-commit 到测试需求 (GH#8257) Genevieve Buckley
在 fastparquet 引擎中重构 read_metadata (GH#8092) Richard (Rick) Zamora
在 from_zarr 中支持 Path 对象 (GH#8266) Samuel Gaist
使嵌套重定向工作 (GH#8272) Julia Signell
如果 verbose 在 info 中为 True，则将 memory_usage 设置为 True (GH#8222) Kinshuk Dua
从 sphinx toctree 中移除单独的 API 文档页面 (GH#8238) James Bourbeau
在gufunc signature 中忽略空白 (GH#8267) James Bourbeau
添加更新 gpuCI 的工作流程 (GH#8215) Charles Blackmon-Luca
DataFrame.head 在只有一个分区时不应该警告 (GH#8091) Pankaj Patil
如果未安装 pyarrow ，则忽略箭头 doctests (GH#8256) Genevieve Buckley
修复 debugging.html 重定向 (GH#8251) James Bourbeau
修复单分区数据框的空值排序 (GH#8225) Charles Blackmon-Luca
修复 setup.html 重定向 (GH#8249) Florian Jetter
在 CI 中运行 pyupgrade (GH#8246) crusaderky
修复上游CI构建中的标签拼写错误 (GH#8237) James Bourbeau
在 DataFrame.assign 中添加对“依赖”列的支持 (GH#8086) Suriya Senthilkumar
将Dask键的NumPy数组添加到 Array (GH#7922) Davis Bennett
在文档中移除不必要的 dask.multiprocessing 导入 (GH#8240) Ray Bell
调整从 Executor 中获取 _max_workers (GH#8228) John A Kirkham
在 delayed 最佳实践文档中更新函数签名 (GH#8231) Vũ Trung Đức
文档重组 (GH#7984) Julia Signell
修复 df.quantile 在所有缺失数据上的问题 (GH#8129) Julia Signell
添加 tokenize.ensure-deterministic 配置选项 (GH#7413) Hristo Georgiev
使用 inclusive 而不是 closed 与 pandas>=1.4.0 和 pd.date_range (GH#8213) Julia Signell
将 dask-gateway、Coiled 和 Saturn-Cloud 添加到 Dask 设置工具列表中 (GH#7814) Kristopher Overholt
在序列化 HighLevelGraph 层时，确保现有的 futures 作为 deps 传递 (GH#8199) Jim Crist-Harif
确保单分区合并的分区是左合并 (GH#8162) Julia Signell
在 pyarrow parquet 引擎中重构 read_metadata (GH#8072) Richard (Rick) Zamora
在 map_blocks 和 map_overlap 中支持负数的 drop_axis (GH#8192) Gregory R. Lee
修复上游测试 (GH#8205) Julia Signell
通过 Series 添加标量项赋值支持 (GH#8195) Charles Blackmon-Luca
在 dask.bag 的 all、any、count 方法的文档字符串中添加了一些基本示例 (GH#7630) Nathan Danielsen
不要让上游报告依赖于提交信息 (GH#8202) James Bourbeau
确保上游 CI cron 作业运行 (GH#8200) James Bourbeau
使用 pytest.param 来正确标记特定参数的 GPU 测试 (GH#8197) Charles Blackmon-Luca
将 test_set_index 添加到在 gpuCI 上运行的测试中 (GH#8198) Charles Blackmon-Luca
抑制 tmpfile OSError (GH#8191) James Bourbeau
在 set_partitions_pre 中使用 s.isna 代替 ``pd.isna(s)``（修复 cudf CI）(GH#8193) Charles Blackmon-Luca
为 test-upstream 失败打开一个问题 (GH#8067) Wallace Reis
修复在调用 pyarrow.parquet.read_metadata 时的 to_parquet 错误 (GH#8186) Richard (Rick) Zamora
在 sort_values 中添加对空值的处理 (GH#8167) Charles Blackmon-Luca
为 gpuCI 更新 RAPIDS_VER (GH#8184) Charles Blackmon-Luca
Dispatch 为延迟注册的处理程序遍历 MRO (GH#8185) Jim Crist-Harif
配置 SSHCluster 指令 (GH#8181) Ray Bell
在 DataFrame.from_delayed 中保留 HighLevelGraphs (GH#8174) Gabe Joseph
弃用 Dask 系列重命名的 inplace 参数 (GH#8136) Marcel Coetzee
修复与 pandas > 1.3.0 的兼容性滚动问题 (GH#8150) Julia Signell
当对未知块进行 setitem 时引发错误 (GH#8166) Julia Signell
在进行 Index.to_series 时包含分区 (GH#8165) Julia Signell

2021.09.1¶

发布于2021年9月21日

修复 groupby 以适应未来的 pandas (GH#8151) Julia Signell
移除测试中不再需要的警告过滤器 (GH#8155) Julia Signell
在本地诊断文档中添加诊断可视化函数的链接 (GH#8157) David Hoese
将 datetime_is_numeric 添加到 dataframe.describe (GH#7719) Julia Signell
移除对 pd.Int64Index 的引用，以应对即将到来的弃用 (GH#8144) Julia Signell
如果需要，使用 loc 进行系列 __get_item__ (GH#7953) Julia Signell
特别忽略空切片的均值警告 (GH#8125) Julia Signell
跳过 pandas >= 1.3.3 的 groupby nunique 测试 (GH#8142) Julia Signell
为 sort_values 实现 ascending 参数 (GH#8130) Charles Blackmon-Luca
替换 operator.getitem (GH#8015) Naty Clementi
弃用 zero_broadcast_dimensions 和 homogeneous_deepmap (GH#8134) SnkSynthesis
如果 drop_index 为负数则添加错误 (GH#8064) neel iyer
允许 scheduler 成为一个 Executor (GH#8112) John A Kirkham
处理 asarray/asanyarray 情况，其中 like 是一个 dask.Array (GH#8128) Peter Andreas Entschev
修复 index_col 重复问题，如果 index_col 是 str 类型 (GH#7661) McToel
在 asarray 和 asanyarray 的定义中添加 dtype 和 order (GH#8106) Julia Signell
弃用 dask.dataframe.Series.__contains__ (GH#7914) Julia Signell
修复 _wrapped_qr 中 like-数组的边缘情况 (GH#8122) Peter Andreas Entschev
弃用 boundary_slice 关键字参数：pandas 兼容的 kind (GH#8037) Julia Signell

2021.09.0¶

发布于2021年9月3日

减少打开的文件 (GH#7303) Julia Signell
将 FileNotFound 添加到预期的 http 错误中 (GH#8109) Martin Durant
将 DataFrame.sort_values 添加到 API 文档 (GH#8107) Benjamin Zaitlen
切换到 dask.order：有时更积极 (GH#7929) Erik Welch
在CI中添加pytest颜色 (GH#8090) James Bourbeau
修复：make_people 与 processes 调度器一起工作 (GH#8103) Dahn
为 Dataframe 的 copy 方法添加了 deep 参数，并将其限制为 False (GH#8068) João Paulo Lacerda
修复配置文档中的拼写错误 (GH#8104) Robert Hales
更新 DataFrame.query 文档字符串中的格式 (GH#8100) James Bourbeau
取消 sparse 测试的 xfail 状态以用于 0.13.0 版本发布 (GH#8102) James Bourbeau
为 DataFrame 和 Series 添加 axes 属性 (GH#8069) Jordan Jensen
在 da.unique 中添加 CuPy 支持（仅限值） (GH#8021) Peter Andreas Entschev
sparse.zeros_like 的单元测试（xfailed）(GH#8093) crusaderky
在数组创建函数中添加显式的 like 关键字参数支持 (GH#8054) Peter Andreas Entschev
分离 Array 和 DataFrame 的 mindeps 构建 (GH#8079) James Bourbeau
将 percentile_dispatch 分叉到 dask.array (GH#8083) GALI PREM SAGAR
确保 filepath 存在于 to_parquet (GH#8057) James Bourbeau
在 test_scheduler_highlevel_graph_unpack_import 中更新调度器插件的使用 (GH#8080) James Bourbeau
将 DataFrame.shuffle 添加到 API 文档 (GH#8076) Martin Fleischmann
按字母顺序排列需求 (GH#8073) John A Kirkham

2021.08.1¶

发布于2021年8月20日

为 read_parquet 添加 ignore_metadata_file 选项（仅支持 pyarrow-dataset 和 fastparquet） (GH#8034) Richard (Rick) Zamora
在开发文档中添加对 pytest-xdist 的引用 (GH#8066) Julia Signell
在 to_datetime 中包含 tz 到元数据 (GH#8000) Julia Signell
CI 基础设施文档 (GH#7985) Benjamin Zaitlen
在 assert_eq 检查中包含无效的 DataFrame 键 (GH#8061) James Bourbeau
在创建 DataFrame 时使用 __class__ (GH#8053) Mads R. B. Kristensen
在 gpuCI 构建中使用 distributed 的开发版本 (GH#7976) James Bourbeau
忽略 gufunc signature (GH#8049) James Bourbeau 中的空白
移动 pandas 导入和百分位分派重构 (GH#8055) GALI PREM SAGAR
添加颜色以表示高层次的图层类型 (GH#7974) Freyam Mehta
上游实例修复 (GH#8060) Jacob Tomlinson
添加 dask.widgets 并将 HTML reprs 迁移到 jinja2 (GH#8019) Jacob Tomlinson
移除 wrap_func_like_safe ，在 NumPy >= 1.17 中不再需要 (GH#8052) Peter Andreas Entschev
修复线程调度器内存反压回归 (GH#8040) David Hoese
添加百分位数调度 (GH#8029) GALI PREM SAGAR
在 groupby 中使用公开文档化的属性 obj 而不是私有属性 _selected_obj (GH#8038) GALI PREM SAGAR
指定从 import rechunk 的模块（GH#8039）`Illviljan`_
在某些情况下使用 dict 来存储 {nan,}arg{min,max} 的数据 (GH#8014) Peter Andreas Entschev
修复 read_pandas 中 blocksize 描述的格式 (GH#8047) Louis Maddox
修复文档中的“point” -> “pointers”拼写错误 (GH#8043) David Chudzicki

2021年8月¶

发布于2021年8月13日

修复 to_orc 延迟计算行为 (GH#8035) Richard (Rick) Zamora
不要在 compute_as_if_collection 中转换为低级任务图 (GH#7969) James Bourbeau
修复hdf的多文件读取 (GH#8033) Julia Signell
解决 distributed 测试中的警告 (GH#8025) James Bourbeau
更新 to_orc 集合名称 (GH#8024) James Bourbeau
解决 skipfooter 问题 (GH#7855) Ross
对于传递给 to_datetime 的不可索引参数，引发 NotImplementedError (GH#7989) Doug Davis
确保我们在 distributed 中出现警告时报错（GH#8002） James Bourbeau
在 DataFrame 的 to_bag 配件中添加了 dict 格式 (GH#7932) gurunath
延迟文档间接依赖 (GH#8016) aa1371
为 graphviz 高级图表添加工具提示 (GH#7973) Freyam Mehta
关闭2021用户调查 (GH#8007) Julia Signell
将CuPy测试重新组织到多个文件中 (GH#8013) Peter Andreas Entschev
重构并扩展 Dask-Dataframe ORC API (GH#7756) Richard (Rick) Zamora
如果 enforce=False ，不要强制列 (GH#7916) Julia Signell
修复 map_overlap 在 drop_axis 不是 None 时的修剪行为 (GH#7894) Gregory R. Lee
将 gpuCI CuPy 测试标记为不稳定 (GH#7994) Peter Andreas Entschev
避免在 to_csv 和 to_parquet 中使用 Delayed (GH#7968) Matthew Rocklin
移除了冗余的 check_dtypes (GH#7952) gurunath
使用 pytest.warns 而不是 raises 来检查 parquet 引擎的弃用 (GH#7993) Joris Van den Bossche
在 gpuCI 中更新 RAPIDS_VER 至 21.10 (GH#7991) Charles Blackmon-Luca
为 pyarrow>=5 添加 pyarrow-legacy 测试覆盖 (GH#7988) Richard (Rick) Zamora
在 to_parquet 和 read_parquet 中允许 pyarrow>=5 (GH#7967) Richard (Rick) Zamora
当 NumPy < 1.20 可用时跳过需要 NEP-35 的 CuPy 测试 (GH#7982) Peter Andreas Entschev
将 tail 和 head 添加到 SeriesGroupby (GH#7935) Daniel Mesejo-León
更新每月会议的 Zoom 链接 (GH#7979) James Bourbeau
添加 gpuCI 构建脚本 (GH#7966) Charles Blackmon-Luca
弃用 daily_stock 工具 (GH#7949) James Bourbeau
将 distributed.nanny 添加到配置参考文档中 (GH#7955) James Bourbeau
需要 NumPy 1.18+ 和 Pandas 1.0+ (GH#7939) John A Kirkham

2021年7月2日¶

发布于2021年7月30日

备注

这是最后一个支持 NumPy 1.17 和 pandas 0.25 的版本。从下一个版本开始，NumPy 1.18 和 pandas 1.0 将成为最低支持版本。

将 dask.array SVG 添加到 HTML 表示中 (GH#7886) Freyam Mehta
避免在 to_parquet 中使用 Delayed (GH#7958) Matthew Rocklin
在CI中暂时固定 pyarrow<5 (GH#7960) James Bourbeau
为顶层 ucx 和 rmm 配置值添加弃用警告 (GH#7956) James Bourbeau
从doctests中移除跳过（4 of 6）(GH#7865) Zhengnan Zhao
从doctests中移除跳过（5 of 6）(GH#7864) Zhengnan Zhao
为 da.diff 添加了缺失的 prepend/append 功能 (GH#7946) Peter Andreas Entschev
将 graphviz 字体系列更改为 sans (GH#7931) Freyam Mehta
修复 read-csv 名称 - 当路径不同时，为任务使用不同的名称 (GH#7942) Julia Signell
更新 ucx 和 rmm 更改的配置参考 (GH#7943) James Bourbeau
为 __setitem__ 添加元支持 (GH#7940) Peter Andreas Entschev
NEP-35 对 slice_with_int_dask_array 的支持 (GH#7927) Peter Andreas Entschev
在CI中取消固定fastparquet (GH#7928) James Bourbeau
从doctests中移除跳过（3 of 6）(GH#7872) Zhengnan Zhao

2021.07.1¶

发布于2021年7月23日

使数组 assert_eq 检查 dtype (GH#7903) Julia Signell
从doctests中移除跳过（6 of 6）(GH#7863) Zhengnan Zhao
从actors文档中移除实验性功能警告 (GH#7925) Matthew Rocklin
从doctests中移除跳过（2 of 6）(GH#7873) Zhengnan Zhao
分离数组和包 API (GH#7917) Julia Signell
实现惰性 Array.__iter__ (GH#7905) Julia Signell
清理我们无意中迭代数组的地方 (GH#7913) Julia Signell
为 DataFrame 缩减添加 numeric_only 关键字参数 (GH#7831) Julia Signell
为GPU测试添加pytest标记 (GH#7876) Charles Blackmon-Luca
在 dask.array 中添加对 histogram2d 的支持 (GH#7827) Doug Davis
从doctests中移除跳过（1 of 6）(GH#7874) Zhengnan Zhao
为高级图形的 Graphviz 输出添加节点大小缩放 (GH#7869) Freyam Mehta
更新旧的 Bokeh 链接 (GH#7915) Bryan Van de Ven
在CI中临时固定 fastparquet (GH#7907) James Bourbeau
将 dask.array 导入添加到进度条文档中 (GH#7910) Fabian Gebhart
为每个 DataFrame API 函数和方法使用单独的文件 (GH#7890) Julia Signell
修复 pyarrow-dataset 排序错误 (GH#7902) Richard (Rick) Zamora
泛化唯一聚合 (GH#7892) GALI PREM SAGAR
在使用 pd.Grouper 时引发 NotImplementedError (GH#7857) Ruben van de Geer
在 read_parquet 中添加 aggregate_files 参数以启用多文件分区 (GH#7557) Richard (Rick) Zamora
取消 xfail test_daily_stock (GH#7895) James Bourbeau
更新访问配置文档 (GH#7837) Naty Clementi
使用打包进行版本比较 (GH#7820) Elliott Sales de Andrade
在 merge_asof 中处理无限循环 (GH#7842) gerrymanoim

2021年7月¶

发布于2021年7月9日

在上游CI构建中包含 fastparquet (GH#7884) James Bourbeau
Blockwise: 处理非字符串常量依赖 (GH#7849) Mads R. B. Kristensen
fastparquet 现在支持新的时间类型，包括纳秒精度 (GH#7880) Martin Durant
在 ArrowDatasetEngine 中追加时避免使用 ParquetDataset API (GH#7544) Richard (Rick) Zamora
为 test_shuffle_priority 添加重试逻辑 (GH#7879) Richard (Rick) Zamora
在CI中使用严格的通道优先级 (GH#7878) James Bourbeau
支持嵌套 dask.distributed 导入 (GH#7866) Matthew Rocklin
应该只检查模块名称，而不是整个目录文件路径 (GH#7856) Genevieve Buckley
由于 https://github.com/dask/fastparquet/pull/623 (GH#7875) 的更新 Martin Durant
da.eye 修复 chunks=-1 (GH#7854) Naty Clementi
暂时 xfail test_daily_stock (GH#7858) James Bourbeau
在 SimpleShuffleLayer 中设置优先级注解 (GH#7846) Richard (Rick) Zamora
块状化：字符串化常量键输入 (GH#7838) Mads R. B. Kristensen
允许在 @guvectorize 中混合使用 dask 和 numpy 数组 (GH#6863) Julia Signell
在计算其大小时，不要对 shuffle 组的字典结果进行采样 (GH#7834) Florian Jetter
修复 scipy 测试 (GH#7841) Julia Signell
确定性地标记化 datetime.date (GH#7836) James Bourbeau
将 sample_rows 添加到 read_csv 类似的函数中 (GH#7825) Martin Durant
修复 config.deserialize 文档字符串中的拼写错误 (GH#7830) Geoffrey Lentner
在 test_dataframe_picklable 中移除警告过滤器 (GH#7822) James Bourbeau
改进 ``histogramdd``（用于处理输入为数组序列的情况）。(GH#7634) Doug Davis
将 PY_VERSION 设为私有 (GH#7824) James Bourbeau

2021.06.2¶

发布于2021年6月22日

layers.py 比较 parts_out 与 set(self.parts_out) (GH#7787) Genevieve Buckley
使 check_meta 更好地理解 pandas 的数据类型 (GH#7813) Julia Signell
移除“教育资源”文档页面 (GH#7818) James Bourbeau

2021.06.1¶

发布于2021年6月18日

在 dask.org 上用 ‘Supported By’ 部分替换资金页面 (GH#7817) James Bourbeau
添加初始弃用工具 (GH#7810) James Bourbeau
在显式使用 dtype= 的 ufuncs 中强制保持 dtype 不变 (GH#7808) Doug Davis
将 Coiled 添加到付费支持组织列表中 (GH#7811) Kristopher Overholt
对 Layer 和 HighLevelGraph 的 HTML repr 进行了小调整 (GH#7812) Genevieve Buckley
为HLG HTML repr添加暗模式支持 (GH#7809) Jacob Tomlinson
移除旧分布式 (GH#7801) 的兼容性条目 Elliott Sales de Andrade
HighLevelGraph 层的 HTML repr 实现 (GH#7763) Genevieve Buckley
更新默认的 blockwise 令牌以避免 DataFrame 列名冲突 (GH#6546) James Bourbeau
使用调度 concat 进行 merge_asof (GH#7806) Julia Signell
修复上游频率测试 (GH#7795) Julia Signell
使用标准库中的更多上下文管理器 (GH#7796) James Bourbeau
简化parquet测试中的跳过 (GH#7802) Elliott Sales de Andrade
移除过时的 bokeh 检查 (GH#7804) Elliott Sales de Andrade
更多测试覆盖率上传 (GH#7799) James Bourbeau
从 dask/__init__.py 中移除 ImportError 捕获 (GH#7797) James Bourbeau
允许 DataFrame.join() 接受一个 DataFrame 列表进行合并 (GH#7578) Krishan Bhasin
修复 dask.array.linspace 中的最大递归深度异常 (GH#7667) Daniel Mesejo-León
修复文档链接 (GH#7794) Julia Signell
初始 da.select() 实现和测试 (GH#7760) Gabriel Miretti
层必须实现 get_output_keys 方法 (GH#7790) Genevieve Buckley
不要在分区中包含或期望 freq (GH#7785) Julia Signell
HighLevelGraph 抽象层用于 map_overlap (GH#7595) Genevieve Buckley
始终在 drop 中包含 kwarg 名称 (GH#7784) Julia Signell
仅在需要时对中位数进行重新分块 (GH#7782) Julia Signell
将 add_(prefix|suffix) 添加到 DataFrame 和 Series (GH#7745) tsuga
将 read_hdf 移动到 Blockwise (GH#7625) Richard (Rick) Zamora
将 Layer.get_output_keys 正式设为抽象方法 (GH#7775) Genevieve Buckley
非dask数组和 ravel_multi_index 中的广播 (GH#7594) Gabe Joseph
修复parquet覆盖中以“/”结尾的路径 (GH#7773) Martin Durant
修复调用 .visualize() 时 filename=None 的问题 (GH#7740) Freyam Mehta
为 SubgraphCallable 生成唯一名称 (GH#7637) Bruce Merry
在 CI 中将 fsspec 固定到 2021.5.0 (GH#7771) James Bourbeau
如果在 from_delayed 中提供了元数据，则延迟评估图表（GH#7769）`Florian Jetter`_
为 DatetimeTZDtype 添加 meta 支持 (GH#7627) gerrymanoim
为自动PR标签添加分派标签 (GH#7701) James Bourbeau
修复HDFS测试 (GH#7752) Julia Signell

2021.06.0¶

发布于2021年6月4日

在 rewrite_blockwise 中从图键中移除抽象令牌 (GH#7721) Richard (Rick) Zamora
确保csv文件 project_columns 中的列顺序正确 (GH#7761) Richard (Rick) Zamora
重命名内部循环变量以避免重复 (GH#7741) Boaz Mohar
不要从 to_zarr 返回延迟对象 (GH#7738) Chris Roat
数组：在 apply_gufunc 中正确的输出数量 (GH#7669) Gabe Joseph
使用 da.blockwise 重写 da.fromfunction (GH#7704) John A Kirkham
将 make_meta_util 重命名为 make_meta (GH#7743) GALI PREM SAGAR
如果请求的分区少于输入分区，则在洗牌前重新分区 (GH#7715) Vibhu Jawa
块级处理：处理常量键输入 (GH#7734) Mads R. B. Kristensen
在 apply_gufunc 中添加了 raise (GH#7744) Boaz Mohar
在CI中显示失败的测试总结 (GH#7735) Genevieve Buckley
sizeof 在 Python 3.9 中设置 (GH#7739) Mads R. B. Kristensen
如果在 dataframe.__getitem__ 中使用 pandas 的类似日期时间的字符串，则发出警告（GH#7749） Julia Signell
突出显示 client.dashboard_link (GH#7747) Genevieve Buckley
更简单的订阅Google日历链接 (GH#7733) Genevieve Buckley
在Jupyter笔记本中自动显示图形可视化 (GH#7716) Genevieve Buckley
在API文档中为 unify_chunks 添加 autofunction (GH#7730) James Bourbeau

2021.05.1¶

发布于2021年5月28日

Pandas 兼容性 (GH#7712) Julia Signell
修复 optimize_dataframe_getitem 错误 (GH#7698) Richard (Rick) Zamora
更新文档中的 make_meta 导入 (GH#7713) Benjamin Zaitlen
实现 da.searchsorted (GH#7696) Tom White
修复错误信息中的格式字符串 (GH#7706) 袁嘉铭
修复 read_sql_table 在加载单列时返回错误结果的问题 (GH#7572) c-thiel
在 support.rst 中添加 Slack 加入链接 (GH#7679) Naty Clementi
移除未使用的字母变量 (GH#7700) James Bourbeau
修复 object 情况下的元创建 (GH#7586) GALI PREM SAGAR
为 union_categoricals 添加调度 (GH#7699) GALI PREM SAGAR
合并数组 Dispatch 对象 (GH#7505) James Bourbeau
将 DataFrame dispatch.registers 移动到它们自己的文件中 (GH#7503) Julia Signell
修复了 dataclasses 中 init=False 的延迟问题 (GH#7656) Julia Signell
允许列名为 divisions (GH#7605) Julia Signell
带有未知块的堆栈和数组 (GH#7562) Chris Roat
推广2021年Dask用户调查 (GH#7694) Genevieve Buckley
修复 DataFrame.set_index() 中的拼写错误 (GH#7691) James Lamb
清理数组 API 参考链接 (GH#7684) David Hoese
接受 flip 的 axis 元组以与 NumPy 保持一致 (GH#7675) Andrew Champion
更新 pre-commit 钩子版本 (GH#7676) James Bourbeau
清理 to_zarr 文档字符串 (GH#7683) David Hoese
修复 read_orc 的文档字符串 (GH#7678) Justus Magin
文档 ipyparallel 和 mpi4py 的 concurrent.futures (GH#7665) John A Kirkham
更新测试以支持 CuPy 9 (GH#7671) Peter Andreas Entschev
修复了一些 HighLevelGraph 文档中的不准确之处 (GH#7662) Mads R. B. Kristensen
修复 Series getitem 错误消息中的拼写错误 (GH#7659) Maisie Marshall

2021.05.0¶

发布于2021年5月14日

删除已弃用的 kind 关键字参数以符合 pandas 1.3.0 (GH#7653) Julia Signell
修复 DataFrame 列投影中的错误 (GH#7645) Richard (Rick) Zamora
打包时合并全局注解 (GH#7565) Mads R. B. Kristensen
避免在 pandas set_categories 中使用 inplace= (GH#7633) James Bourbeau
将 Dask-Dataframe 的 active-fusion 默认值更改为 False (GH#7620) Richard (Rick) Zamora
数组：从 RandomState 中移除多余代码 (GH#7487) Gabe Joseph
在 others=None 时实现 str.concat (GH#7623) Daniel Mesejo-León
修复沙盒环境中的 dask.dataframe (GH#7601) Noah D. Brenowitz
对 cupyx.scipy.linalg 的支持 (GH#7563) Benjamin Zaitlen
将 timeseries 和 daily-stock 移动到 Blockwise (GH#7615) Richard (Rick) Zamora
修复广播连接中的错误 (GH#7617) Richard (Rick) Zamora
使用 Blockwise 进行 DataFrame IO（parquet、csv 和 orc）(GH#7415) Richard (Rick) Zamora
向Dask HighLevelGraph 添加块和类型信息（GH#7309） Genevieve Buckley
添加 pyarrow sphinx intersphinx_mapping (GH#7612) Ray Bell
移除测试频率上的跳过 (GH#7608) Julia Signell
read_parquet 参数中的默认值 (GH#7567) Ray Bell
移除 ignore_abc_warning (GH#7606) Julia Signell
在列选择和索引之间强化 DataFrame 合并 (GH#7575) Richard (Rick) Zamora
移除 ignore_abc 装饰器 (GH#7604) Julia Signell
移除bokeh的kwarg验证（GH#7597） Julia Signell
添加 loky 示例 (GH#7590) Naty Clementi
延迟：当参数变为任务时 nout (GH#7593) Gabe Joseph
在mindep CI构建中更新分布式版本 (GH#7602) James Bourbeau
支持分区列与实际列之间完全重叠或无重叠 (GH#7541) Richard (Rick) Zamora

2021.04.1¶

发布于2021年4月23日

处理 Blockwise HLG 的打包/解包，适用于 concatenate=True (GH#7455) Richard (Rick) Zamora
map_partitions: 使用分词信息作为 SubgraphCallable 的名称 (GH#7524) Mads R. B. Kristensen
使用 tmp_path 和 tmpdir 避免临时文件和目录留在仓库中 (GH#7592) Naty Clementi
贡献文档（开发指南） (GH#7591) Naty Clementi
向 Python 3.9 CI 构建添加更多包 (GH#7588) James Bourbeau
数组：修复 finalize 中的 NEP-18 调度 (GH#7508) Gabe Joseph
numpydoc 的杂项修复 (GH#7569) Matthias Bussonnier
避免 pandas level= 关键字弃用 (GH#7577) James Bourbeau
将 .repartition(freq="M") 映射到 .repartition(freq="MS") (GH#7504) Ruben van de Geer
在并行CI运行中移除哈希种子 (GH#7128) Elliott Sales de Andrade
在 to_parquet 的参数中添加默认值 (GH#7564) Ray Bell
简化转置轴清理 (GH#7561) Julia Signell
使 ValueError in len(index_names) > 1 明确其使用 fastparquet (GH#7556) Ray Bell
修复 pyarrow parquet 引擎的 dict 列追加问题 (GH#7527) Richard (Rick) Zamora
添加文档自动标签 (GH#7560) Doug Davis
将 dask.delayed.Delayed 添加到文档中，以便其他 sphinx 文档可以引用它 (GH#7559) Doug Davis
修复上游 idxmaxmin 对于不均匀 split_every 的问题 (GH#7538) Julia Signell
为 pandas 的 Series/DataFrame 制作 normalize_token 以确保未来兼容性（无直接块访问） (GH#7318) Joris Van den Bossche
重新设计的 __setitem__ 实现 (GH#7393) David Hassell
histogram，histogramdd 改进（文档；返回一致性）(GH#7520) Doug Davis
在上游构建中强制使用夜间版本的 pyarrow (GH#7530) Joris Van den Bossche
修复配置参考 (GH#7533) Benjamin Zaitlen
在 dask.dataframe 的文档字符串中使用 .to_parquet (GH#7528) Ray Bell
避免HLGs的双重``msgpack``序列化 (GH#7525) Mads R. B. Kristensen
鼓励在配置文档中使用 yaml.safe_load() (GH#7529) Hristo Georgiev
修复 reshape 错误。添加相关测试。修复 #7171。(GH#7523) JSKenyon
在 to_parquet 中支持 custom_metadata= 参数 (GH#7359) Richard (Rick) Zamora
清理一些文档警告 (GH#7518) Daniel Mesejo-León
消除更多文档警告 (GH#7426) Julia Signell
添加了 product``（``prod 的别名）（GH#7517） Freyam Mehta
修复上游 __array_ufunc__ 测试 (GH#7494) Julia Signell
如果深度为零，从 map_overlap 切换到 map_blocks (GH#7481) Genevieve Buckley
将 check_type 添加到数组 assert_eq (GH#7491) Julia Signell

2021.04.0¶

发布于2021年4月2日

添加对多维直方图的支持，使用 dask.array.histogramdd (GH#7387) Doug Davis
更新默认 LocalCluster 中的线程数和工作者数的文档 (GH#7497) cameron16
在PR中触及某些文件时自动添加标签 (GH#7506) Julia Signell
从 kwargs 中提取 ignore_order (GH#7500) GALI PREM SAGAR
只有在缺少分布时才提供安装说明 (GH#7498) Matthew Rocklin
开始添加 isort (GH#7370) Julia Signell
在 dd.concat 中添加 ignore_order 参数 (GH#7473) Daniel Mesejo-León
在显示RAM时使用二的幂次方 (GH#7484) crusaderky
添加了许可证分类器 (GH#7485) Tom Augspurger
用 mamba 替换 conda (GH#7227) crusaderky
修复数组文档中的拼写错误 (GH#7478) James Lamb
在本地调度器中使用 concurrent.futures (GH#6322) John A Kirkham

2021.03.1¶

发布于2021年3月26日

为 is_categorical_dtype 添加一个调度以处理非 pandas 对象 (GH#7469) brandon-b-miller
在 test_read_text 中使用 multiprocessing.Pool (GH#7472) John A Kirkham
为 gufunc 类添加缺失的 meta 关键字参数 (GH#7423) Peter Andreas Entschev
内存映射 Dask 数组的示例 (GH#7380) Dieter Weber
修复 NumPy 上游失败 xfail pandas 和 fastparquet 失败 (GH#7441) Julia Signell
修复了使用 freq 进行重新分区的错误 (GH#7357) Ruben van de Geer
修复 tril/triu 的 __array_function__ 调度 (GH#7457) Peter Andreas Entschev
在几个测试中使用 concurrent.futures.Executors (GH#7429) John A Kirkham
需要 NumPy >=1.16 (GH#7383) crusaderky
次要的 sort_values 维护工作 (GH#7462) Ryan Williams
确保在 parquet 部分路径中的自然排序 (GH#7249) Ryan Williams
在运行 test_config.py 时移除全局环境变异 (GH#7464) Hristo Georgiev
更新 NumPy intersphinx URL (GH#7460) Gabe Joseph
添加 rot90 (GH#7440) Trevor Manz
更新文档以包含端点所需的包 (GH#7454) Nick Vazquez
在 slice_array 文档字符串中将 Master -> main (GH#7453) Gabe Joseph
扩展 dask.utils.is_arraylike 文档字符串 (GH#7445) Doug Davis
简化 BlockwiseIODeps 导入 (GH#7420) Richard (Rick) Zamora
更新图层注释打包方法 (GH#7430) James Bourbeau
在 test_describe_empty 中删除重复测试 (GH#7431) John A Kirkham
在 dataframe 模块中添加 Series.dot 方法 (GH#7236) Madhu94
添加了 df kurtosis 方法和测试 (GH#7273) Jan Borchmann
避免 HLG 剔除的二次时间性能 (GH#7403) Bruce Merry
暂时跳过有问题的 sparse 测试 (GH#7421) James Bourbeau
更新一些CI工作流名称 (GH#7422) James Bourbeau
修复 HDFS 测试 (GH#7418) Julia Signell
使变更日志子标题匹配层次结构 (GH#7419) Julia Signell
在 value_counts 中添加对 normalize 的支持 (GH#7342) Julia Signell
避免不必要的导入用于HLG层的解包和物化 (GH#7381) Richard (Rick) Zamora
Bincount 修复切片 (GH#7391) Genevieve Buckley
添加 sliding_window_view (GH#7234) Deepak Cherian
修复 docs/source/develop.rst 中的拼写错误 (GH#7414) Hristo Georgiev
切换 PR 的文档构建到 readthedocs (GH#7397) James Bourbeau
为 dask.DataFrame 添加 sort_values (GH#7286) gerrymanoim
在CI中固定 sqlalchemy<1.4.0 (GH#7405) James Bourbeau
评论修复 (GH#7215) Ryan Williams
死代码移除/修复 (GH#7388) Ryan Williams
使用单线程进行 pa.Table.from_pandas 调用 (GH#7347) Richard (Rick) Zamora
将 'container' 替换为 'image' (GH#7389) James Lamb
文档超链接重新分配 (GH#7394) Ray Bell
在 bag.read_text 中向 fsspec 传递分隔符 (GH#7349) Martin Durant
将 read_hdf 的默认模式更新为 "r" (GH#7039) rs9w33
在打包 Blockwise 时，将字面量嵌入 SubgraphCallable 中 (GH#7353) Mads R. B. Kristensen
更新 test_hdf.py 以不再重复使用文件处理程序 (GH#7044) rs9w33
需要额外的依赖项：cloudpickle、partd、fsspec、toolz (GH#7345) Julia Signell
准备 Blockwise + IO 基础设施 (GH#7281) Richard (Rick) Zamora
从 test_slicing.py 中删除重复的导入 (GH#7365) Hristo Georgiev
为 pip 开发添加测试依赖 (GH#7360) Julia Signell
支持非NumPy数组的整数切片（GH#7364） Peter Andreas Entschev
自动取消之前的CI构建 (GH#7348) James Bourbeau
dask.array.asarray 应处理 xarray 类在顶层命名空间的情况 (GH#7335) Tom White
HighLevelGraph 在不物化层的情况下计算长度 (GH#7274) Gabe Joseph
放弃对 Python 3.6 的支持 (GH#7006) James Bourbeau
修复 create_metadata_file 中的 fsspec 使用 (GH#7295) Richard (Rick) Zamora
将默认分支从 master 改为 main (GH#7198) Julia Signell
将 Xarray 添加到 CI 软件环境 (GH#7338) James Bourbeau
更新错误文本中的分区参数名称 (GH#7336) Eoin Shanaghy
基于提交消息运行上游测试 (GH#7329) James Bourbeau
在工具模块上使用 pytest.register_assert_rewrite (GH#7278) Bruce Merry
在 from_array() 中添加使用特定块大小的示例 (GH#7330) James Lamb
将 NumPy 跳过移入测试 (GH#7247) Julia Signell

2021.03.0¶

发布于2021年3月5日

备注

这是第一个支持 Python 3.9 的版本，也是最后一个支持 Python 3.6 的版本。

将 distributed 的最低版本提升（GH#7328） James Bourbeau
修复 percentiles_summary 与 dask_cudf (GH#7325) Peter Andreas Entschev
暂时恢复最近的 Array.__setitem__ 更新 (GH#7326) James Bourbeau
Blockwise.clone (GH#7312) crusaderky
NEP-35 鸭子数组更新 (GH#7321) James Bourbeau
不允许为数组设置 .name (GH#7222) Julia Signell
使用最近插值法创建整数输入的分位数 (GH#7305) Kyle Barron
使用 CuPy 数组测试 exp (GH#7322) John A Kirkham
检查计算的分块是否具有正确的尺寸和数据类型 (GH#7277) Bruce Merry
pytest.mark.flaky (GH#7319) crusaderky
贡献文档：在 pip 安装 Dask 之前添加拉取最新 git 标签的注释 (GH#7308) Genevieve Buckley
对 Python 3.9 的支持 (GH#7289) crusaderky
添加基于广播的合并实现 (GH#7143) Richard (Rick) Zamora
将 split_every 添加到 graph_manipulation (GH#7282) crusaderky
优化文档中的拼写错误 (GH#7306) Julius Busecke
dask.graph_manipulation 对 xarray.Dataset 的支持 (GH#7276) crusaderky
为 Bokeh 2.3.0 添加绘图宽度和高度支持 (GH#7297) James Bourbeau
添加 NumPy 函数 tri、triu_indices、triu_indices_from、tril_indices、tril_indices_from (GH#6997) Illviljan
在DataFrame磁盘洗牌中移除“清理”任务 (GH#7260) Sinclair Target
在CI中使用 distributed 的开发版本 (GH#7279) James Bourbeau
移动高层次图包/解包 Dask (GH#7179) Mads R. B. Kristensen
提升 merge_percentiles 的性能 (GH#7172) Ashwin Srinath
文档：添加 dask-sql 和 fugue (GH#7129) Ray Bell
使用分类数据和parquet的示例 (GH#7085) McToel
为 bincount 添加树形简化 (GH#7183) Thomas J. Fan
改进 from_array 中 name 的文档 (GH#7264) Bruce Merry
修复空分区的 cumsum (GH#7230) Julia Signell
在 dask 数组创建文档中添加 map_blocks 示例 (GH#7221) Julia Signell
修复 dask.graph_manipulation.wait_on() 中的性能问题 (GH#7258) crusaderky
将 coveralls 替换为 codecov.io (GH#7246) crusaderky
在 pre-commit 中固定到特定的 black 版本 (GH#7256) Julia Signell
文档中的小拼写错误：array-chunks.rst (GH#7254) Magnus Nord
修复 Blockwise 和 ShuffleLayer 中的错误 (GH#7213) Richard (Rick) Zamora
修复了使用 pyarrow-3.0.0 的 "pyarrow-dataset" 的 parquet 过滤器错误 (GH#7200) Richard (Rick) Zamora
graph_manipulation 不使用 NumPy (GH#7243) crusaderky
对 NEP-35 的支持 (GH#6738) Peter Andreas Entschev
避免在 doctest CI 构建期间运行单元测试 (GH#7240) James Bourbeau
在CI上运行doctests (GH#7238) Julia Signell
在集合算术上清理代码质量 (GH#7196) crusaderky
添加 dask.array.delete (GH#7125) Julia Signell
现在新的 conda-forge 配方已经构建完成，取消对 graphviz 的固定 (GH#7235) Julia Signell
不要在Mac上使用conda-forge的NumPy 1.20 (GH#7211) crusaderky
map_overlap: 不要在没有重叠的情况下重新分块轴 (GH#7233) Deepak Cherian
固定 graphviz 以避免最新 conda-forge 构建的问题 (GH#7232) Julia Signell
在文档中使用 html_css_files 自定义 CSS (GH#7220) James Bourbeau
图操作：clone、bind、checkpoint、wait_on (GH#7109) crusaderky
修复了在 parquet pyarrow-dataset 引擎中处理过滤表达式的问题 (GH#7186) Joris Van den Bossche
扩展 __setitem__ 以更接近匹配 numpy (GH#7033) David Hassell
清理 Python 2 语法 (GH#7195) crusaderky
修复 Delayed._length 中的回归问题 (GH#7194) crusaderky
__dask_layers__() 测试和调整 (GH#7177) crusaderky
在多进程调度器中正确转换 HighLevelGraph (GH#7191) Jim Crist-Harif
不要在CI中快速失败 (GH#7188) James Bourbeau

2021年2月¶

发布于2021年2月5日

为 NEP-35 添加 percentile 支持 (GH#7162) Peter Andreas Entschev
在列赋值中添加了对 Float64 的支持 (GH#7173) Nils Braun
粗化重新分块错误 (GH#7127) Davis Bennett
修复上游 CI 测试 (GH#6896) Julia Signell
修订 HighLevelGraph 映射 API (GH#7160) crusaderky
更新底层图谱规范以使用任何可哈希的键 (GH#7163) James Bourbeau
使用不同的键泛化重建一个集合 (GH#7142) crusaderky
使在PR中链接问题更容易 (GH#7130) Ray Bell
添加 dask.array.append (GH#7146) D-Stacks
允许 dask.array.ravel 接受 array_like 参数 (GH#7138) D-Stacks
修复数组设计文档中的链接 (GH#7152) Thomas J. Fan
修复使用 blockwise 进行外积的示例 (GH#7119) Bruce Merry
弃用 HighlevelGraph.dicts 以支持 .layers (GH#7145) Amit Kumar
将 FastParquetEngine 与 pyarrow 引擎对齐 (GH#7091) Richard (Rick) Zamora
合并注解 (GH#7102) Ian Rose
简化 read_parquet 中的部件列表 (GH#7066) Richard (Rick) Zamora
check_meta(): 检查 DataFrame 类型时使用 __class__ (GH#7099) Mads R. B. Kristensen
缓存多个属性 (GH#7104) Illviljan
修复 parquet getitem 优化 (GH#7106) Richard (Rick) Zamora
将 cytoolz 添加回 CI 环境 (GH#7103) James Bourbeau

2021.01.1¶

发布于2021年1月22日

部分修复 cumprod (GH#7089) Julia Signell
测试 pandas 1.1.x / 1.2.0 版本和 pandas 夜间版 (GH#6996) Joris Van den Bossche
使用 assign 以避免 SettingWithCopyWarning (GH#7092) Julia Signell
传递给 bokeh.output_file() 的 'mode' 参数 (GH#7034) (GH#7075) patquem
在进行 groupby.value_counts 时跳过空分区 (GH#7073) Julia Signell
向 assert_eq() 添加错误信息 (GH#7083) James Lamb
使缓存属性只读 (GH#7077) Illviljan

2021.01.0¶

发布于2021年1月15日

map_partitions 带有评审意见 (GH#6776) Kumar Bharath Prabhu
确保 population 是一个真正的列表 (GH#7027) Julia Signell
在 read_csv 中传播 storage_options (GH#7074) Richard (Rick) Zamora
移除所有 BlockwiseIO 代码 (GH#7067) Richard (Rick) Zamora
修复 CI (GH#7069) James Bourbeau
在 reshape 中添加控制重新分块的选项 (GH#6753) Tom Augspurger
修复 linalg.lstsq 对于复数输入的问题 (GH#7056) Johnnie Gray
为 read_csv 添加 compression='infer' 默认值 (GH#6960) Richard (Rick) Zamora
在 svd_compressed 中恢复参数更改 #7003 (GH#7004) Eric Czech
跳过失败的 s3 测试 (GH#7064) Martin Durant
恢复 BlockwiseIO (GH#7048) Richard (Rick) Zamora
添加一些对 DataFrame.to_bag() 和 Series.to_bag() 的交叉引用 (GH#7049) Rob Malouf
将 matmul 重写为 blockwise 而不进行收缩/连接 (GH#7000) Rafal Wojdyla
在 da.shape 中使用 functools.cached_property (GH#7023) Illviljan
在系列中使用元值 non_empty (GH#6976) Julia Signell
还原“暂时将sphinx版本固定为3.3.1 (GH#7002)” (GH#7014) Rafal Wojdyla
恢复 python-graphviz 的固定版本 (GH#7037) Julia Signell
意外提交的打印语句 (GH#7038) Julia Signell
在 agg 中传递 dropna 和 observed (GH#6992) Julia Signell
在 .str.split 后将索引添加到 meta 中，并展开 (GH#7026) Ruben van de Geer
CI: 测试 pyarrow 2.0 和 nightly (GH#7030) Joris Van den Bossche
在CI中暂时固定 python-graphviz (GH#7031) James Bourbeau
在 numpydoc 中下划线部分 (GH#7013) Matthias Bussonnier
添加自定义优化时保持正常优化 (GH#7016) Matthew Rocklin
暂时将sphinx版本固定为3.3.1 (GH#7002) Rafal Wojdyla
文档：杂项格式化 (GH#6998) Matthias Bussonnier
为 from_array 添加 inline_array 选项 (GH#6773) Tom Augspurger
恢复“块状数组创建例程的初始通过 (GH#6931)” (:pr:`6995) James Bourbeau
在 set_index 中设置 npartitions (GH#6978) Julia Signell
上游 config 序列化和继承 (GH#6987) Jacob Tomlinson
在 test_minimum_time 中增加最小时间 (GH#6988) Martin Durant
修复 pandas dtype 对 read_parquet 的推断 (GH#6985) Richard (Rick) Zamora
使用 sorted=True 避免 set_index 中的数据丢失 (GH#6980) Richard (Rick) Zamora
修复了 read_parquet 在 index=False 时处理未命名索引的问题 (GH#6969) Richard (Rick) Zamora
在比较元数据时使用 __class__ (GH#6981) Mads R. B. Kristensen
比较字符串版本并不总是有效 (GH#6979) Rafal Wojdyla
修复 GH#6925 (GH#6982) sdementen
块状数组创建例程的初始通过 (GH#6931) Ian Rose
简化 has_parallel_type() (GH#6927) Mads R. B. Kristensen
在 BlockwiseIO 中处理注解解包 (GH#6934) Simon Perkins
避免在 test_sql.py 中使用已弃用的 yield_fixture (GH#6968) Richard (Rick) Zamora
在 BlockwiseIO 中移除错误的图逻辑 (GH#6933) Richard (Rick) Zamora
如果变量为 None 则获取配置项 (GH#6862) Jacob Tomlinson
更新 from_pandas 文档字符串 (GH#6957) Richard (Rick) Zamora
防止 fuse_roots 覆盖注释 (GH#6955) Simon Perkins

2020.12.0¶

发布于2020年12月10日

亮点¶

切换到 CalVer 版本控制方案。
为 HighLevelGraph 引入了新的API，以支持将任务图的高级表示发送到分布式调度器。
引入了新的 HighLevelGraph 层对象，包括 BasicLayer、Blockwise、BlockwiseIO、ShuffleLayer 等。
添加了对使用 dask.annotations 上下文管理器应用自定义 Layer 级别注释（如 priority、retries 等）的支持。
将 pandas 的最低支持版本更新为 0.25.0，将 NumPy 的最低支持版本更新为 1.15.1。
对 pyarrow.dataset API 的支持，用于 read_parquet。
对 Dask Array 的 SVD 进行了多项修复。

所有更改¶

使 observed 关键字参数可选 (GH#6952) Julia Signell
最小支持的 pandas 0.25.0 numpy 1.15.1 (GH#6895) Julia Signell
使分类顺序明确 (GH#6949) Julia Signell
改进 read_parquet 的 “pyarrow-dataset” 统计性能 (GH#6918) Richard (Rick) Zamora
为 groupby 添加 observed 关键字 (GH#6854) Julia Signell
确保 include_path_column 在每个文件有多个分区时正常工作 (GH#6911) Julia Signell
修复：当深度为无符号位类型时，array.overlap 和 array.map_overlap 的块大小不正确 (GH#6909) GFleishman
修复HLG文档示例中的语法错误 (GH#6946) Mark
从 sample 返回一个 Bag (GH#6941) Shang Wang
添加 ravel_multi_index (GH#6939) Illviljan
启用并行收集 parquet 元数据 (GH#6921) Richard (Rick) Zamora
如果 progressbar 中的 _file 为 None，请避免使用 (GH#6938) Mark Harfouche
将 Zarr 添加到上游 CI 构建 (GH#6932) James Bourbeau
介绍 BlockwiseIO 层 (GH#6878) Richard (Rick) Zamora
将 Layer 注释传输到调度器 (GH#6889) Simon Perkins
更新机会性缓存页面以移除实验性警告 (GH#6926) Timost
允许 pyarrow >2.0.0 (GH#6772) Richard (Rick) Zamora
支持 read_parquet 的 pyarrow.dataset API (GH#6534) Richard (Rick) Zamora
当粗化因子不能整除形状时，为 da.coarsen 添加更多信息性的错误消息 (GH#6908) Davis Bennett
仅在 dask/dask 上运行 cron CI，不在分支上运行 (GH#6905) Jacob Tomlinson
在 ShuffleLayers 中添加 annotations (GH#6913) Matthew Rocklin
暂时将 test_from_s3 标记为 xfail (GH#6915) James Bourbeau
添加了 dataframe skew 方法 (GH#6881) Jan Borchmann
修复数组 meta 中的 dtype (GH#6893) Julia Signell
在 helm install ... 中缺少 name 参数 (GH#6903) Ruben van de Geer
修复：读取带有过滤器的项目时出现异常 (GH#6901) Martin Durant
为 dask.array.dot 添加对 cupyx 稀疏矩阵的支持 (GH#6846) Akira Naruse
将 pin 数组 mindeps 稍微提升以使测试通过 [test-mindeps] (GH#6894) Julia Signell
更新/移除 mindeps 中的 pandas 和 numpy (GH#6888) Julia Signell
修复 ArrowEngine 在使用 clear_known_categories 时的错误 (GH#6887) Richard (Rick) Zamora
修复关于任务调度器的文档 (GH#6879) Zhengnan Zhao
添加人类可读的相对时间格式化工具 (GH#6883) Jacob Tomlinson
6864 set_index 问题的可能修复 (GH#6866) Richard (Rick) Zamora
BasicLayer: 移除依赖参数 (GH#6859) Mads R. B. Kristensen
Blockwise 的序列化 (GH#6848) Mads R. B. Kristensen
修复 columns=[] 错误 (GH#6871) Richard (Rick) Zamora
避免重复的parquet模式通信 (GH#6841) Richard (Rick) Zamora
为现有的parquet数据集添加 create_metadata_file 工具 (GH#6851) Richard (Rick) Zamora
改进具有共同终点的负载的排序 (GH#6779) Tom Augspurger
字符串化工具 (GH#6852) Mads R. B. Kristensen
在 to_parquet 中添加关键字 overwrite=True 以在覆盖 pyarrow Dataset 时删除悬空文件。 (GH#6825) Greg Hayes
移除了 map_tasks() 和 map_basic_layers() (GH#6853) Mads R. B. Kristensen
将QR迭代引入 svd_compressed (GH#6813) RogerMoens
__dask_distributed_pack__() 现在接受一个 client 参数 (GH#6850) Mads R. B. Kristensen
在 set_index 中使用 map_partitions 代替 delayed (GH#6837) Mads R. B. Kristensen
为 as_completed().update(futures) 添加文档命中 (GH#6817) manuels
更新 GHA setup-miniconda 版本 (GH#6847) Jacob Tomlinson
设置排序索引时移除nans (GH#6829) Rockwell Weiner
修复SVD中u的转置 (GH#6799) RogerMoens
迁移到 GitHub Actions (GH#6794) Jacob Tomlinson
修复 sphinx currentmodule 的使用 (GH#6839) James Bourbeau
修复最小依赖的CI构建 (GH#6838) James Bourbeau
在 Blockwise 筛选期间避免图的物化 (GH#6815) Richard (Rick) Zamora
修复拼写错误 (GH#6834) Devanshu Desai
在 collections_to_dsk 中使用 HighLevelGraph.merge (GH#6836) Mads R. B. Kristensen
在 svd compression_matrix 中尊重 dtype #2849 (GH#6802) RogerMoens
将blocksize添加到任务名称 (GH#6818) Julia Signell
检查所有NaN分区 (GH#6821) Rockwell Weiner
将“机构”SQL文档部分指向主SQL文档 (GH#6823) Martin Durant
修复：DataFrame.join 不接受 Series 作为其他 (GH#6809) David Katz
从 to_parquet 中移除 to_delayed 操作 (GH#6801) Richard (Rick) Zamora
层注释文档字符串改进 (GH#6806) Simon Perkins
Avro 读取器 (GH#6780) Martin Durant
如果最小块大小小于深度，则重新分块数组（GH#6708）`Julia Signell`_
添加图层注释 (GH#6767) Simon Perkins
在文档中添加“查看代码”链接 (GH#6793) manuels
向 Blockwise 层添加可选的 IO-子图 (GH#6715) Richard (Rick) Zamora
为分布式添加高层次的图打包/解包 (GH#6786) Mads R. B. Kristensen
添加 Dataframe API 的缺失方法 (GH#6789) Stephannie Jimenez Gacha
添加环境管理文档 (GH#6778) Martin Durant
HLG: get_all_external_keys() (GH#6774) Mads R. B. Kristensen
在重塑时避免重新分块，使用 chunksize=1 (GH#6748) Tom Augspurger
尝试在连接中使分类工作 (GH#6205) Julia Signell
修复了 array-slice.rst 中的一些小拼写错误和尾随空白 (GH#6771) Magnus Nord
修复空数据框分区写入parquet元数据的问题（pyarrow） (GH#6741) Callum Noble
文档 map_blocks 和 map_overlap 中的 meta 关键字参数。(GH#6763) Peter Andreas Entschev
开始对 cumsum 和 cumprod 进行并行前缀扫描的实验 (GH#6675) Erik Welch
澄清dask和numpy数组在布尔索引上的差异 (GH#6764) Illviljan
高效序列化混洗层 (GH#6760) James Bourbeau
配置数组优化以跳过融合并返回 HLG (GH#6751) Mads R. B. Kristensen
在CI中暂时使用 pyarrow<2 (GH#6759) James Bourbeau
修复 min/max 归约的元数据 (GH#6736) Peter Andreas Entschev
为 da.linalg.lstsq 添加二维可能性 - 镜像 numpy (GH#6749) Pascal Bourgault
CI: 修复了导致枢轴测试不稳定的错误 (GH#6752) Tom Augspurger
层的序列化 (GH#6693) Mads R. B. Kristensen
为 Series/Dataframe 添加 attrs 属性 (GH#6742) Illviljan
移除了可变默认参数 (GH#6747) Mads R. B. Kristensen
调整 parquet ArrowEngine 以允许更轻松地编写子类 (GH#6505) Joris Van den Bossche
添加 ShuffleStage HLG 层 (GH#6650) Richard (Rick) Zamora
在 meta_from_array 中处理字面量 (GH#6731) Peter Andreas Entschev
即使块相同也进行平衡重分块 (GH#6735) Chris Roat
修复文档字符串 DataFrame.set_index (GH#6739) Gil Forsyth
确保 HighLevelGraph 层始终包含 Layer 实例 (GH#6716) James Bourbeau
在 HighLevelGraph 层上进行映射 (GH#6689) Mads R. B. Kristensen
更新重叠的 *_like 函数调用和 CuPy 测试 (GH#6728) Peter Andreas Entschev
修复 svd 与 __array_function__ 的问题 (GH#6727) Peter Andreas Entschev
为文档添加了doctest扩展 (GH#6397) Jim Circadian
根据 @pentschev 的建议对 #5628 进行了小修复 (GH#6724) John A Kirkham
当元类型变化时更改Dask数组类型 (GH#5628) Matthew Rocklin
添加 az (GH#6719) Ray Bell
HLG: 单个键的 get_dependencies() (GH#6699) Mads R. B. Kristensen
恢复“恢复‘在集合中到处使用 HighLevelGraph 层 (GH#6510)’” (GH#6697) (GH#6707) Tom Augspurger
允许 *_like 数组创建函数尊重输入数组类型 (GH#6680) Genevieve Buckley
更新 dask-sphinx-theme 版本 (GH#6700) Gil Forsyth

2.30.0 / 2020-10-06¶

数组¶

允许 rechunk 均匀分割成 N 个块 (GH#6420) Scott Sievert

2.29.0 / 2020-10-02¶

数组¶

_repr_html_: 将边颜色调暗而不是绘制所有线条 (GH#6683) Julia Signell
从 nanstd 和 nanvar 中移除警告 (GH#6667) Thomas J. Fan
从原始数组获取输出形状 - map_overlap (GH#6682) Julia Signell
在索引中用 bisect 替换 np.searchsorted (GH#6669) Joachim B Haga

包¶

确保子进程对 bag groupby 有一致的哈希值 (GH#6660) Itamar Turner-Trauring

核心¶

恢复“在集合中到处使用 HighLevelGraph 层 (GH#6510)” (GH#6697) Tom Augspurger
使用 pandas.testing (GH#6687) John A Kirkham
改进测试中的128位浮点数跳过 (GH#6676) Elliott Sales de Andrade

DataFrame¶

允许使用布尔数据框设置数据框项 (GH#6608) Julia Signell

文档¶

修复拼写错误 (GH#6692) garanews
修复了一些拼写错误 (GH#6678) Pav A

2.28.0 / 2020-09-25¶

数组¶

部分恢复了对 Array 索引的更改，这些更改会产生较大的变化。这将恢复到 Dask 2.25.0 及之前版本的行为，并在生成大块时发出警告。提供了一个配置选项以避免创建大块，请参阅效率。(GH#6665) Tom Augspurger
将 meta 添加到 to_dask_array (GH#6651) Kyle Nicholson
修复 GH#6631 和 GH#6611 (GH#6632) Rafal Wojdyla
在数组缩减中推断对象 (GH#6629) Daniel Saxton
为 svd_flip 添加 v_based 标志 (GH#6658) Eric Czech
修复不稳定的数组 mean (GH#6656) Sam Grayson

核心¶

从 SubgraphCallable.__eq__ 中移除了 dsk 的相等性检查 (GH#6666) Mads R. B. Kristensen
在集合中随处使用 HighLevelGraph 层 (GH#6510) Mads R. B. Kristensen
为 SubgraphCallable 添加哈希双下划线方法以用于缓存目的 (GH#6424) Andrew Fulton
默认情况下停止编写注释掉的配置文件 (GH#6647) Matthew Rocklin

DataFrame¶

通过 agg API 添加对 collect 列表聚合的支持 (GH#6655) Madhur Tandon
略微改进的错误信息 (GH#6657) Julia Signell

2.27.0 / 2020-09-18¶

数组¶

在 svd 中保留 dtype (GH#6643) Eric Czech

核心¶

store(): 创建一个单一的 HLG 层 (GH#6601) Mads R. B. Kristensen
添加预提交CI构建 (GH#6645) James Bourbeau
更新 .pre-commit-config 到最新的 black。(GH#6641) Julia Signell
更新 super 用法以移除 Python 2 兼容性 (GH#6630) Poruri Sai Rahul
移除 u 字符串前缀 (GH#6633) Poruri Sai Rahul

DataFrame¶

改进 to_sql 的错误信息 (GH#6638) Julia Signell
使用空列表作为分类 (GH#6626) Julia Signell

文档¶

为数组API文档添加 autofunction 以支持更多ufuncs (GH#6644) James Bourbeau
向 dask.array 文档添加多个缺失的 ufuncs (GH#6642) Ralf Gommers
添加 HelmCluster 文档 (GH#6290) Jacob Tomlinson

2.26.0 / 2020-09-11¶

数组¶

单块 svd 的后端感知 dtype 推断 (GH#6623) Eric Czech
使 array.reduction 文档字符串与 dtype 匹配 (GH#6624) Martin Durant
使用行和列为 svd_compressed 设置压缩级别的下限 (GH#6622) Eric Czech
改进SVD一致性和小数组处理 (GH#6616) Eric Czech
添加 svd_flip #6599 (GH#6613) Eric Czech
处理包含 dask 数组的序列 (GH#6595) Gabe Joseph
避免使用列表从 getitem 获取大块数据 (GH#6514) Tom Augspurger
在 from_array 中急切地分割 numpy 数组 (GH#6605) Deepak Cherian
恢复对 dask 数组的 pickle 能力 (GH#6594) Noah D. Brenowitz
为短而宽的数组添加SVD支持 (GH#6591) Eric Czech
添加简单的块类型注册表，并根据需要推迟到上转型类型 (GH#6393) Jon Thielen
默认情况下对齐粗化块 (GH#6580) Deepak Cherian
修复未知维度的重塑问题及其他测试修复 (GH#6578) Ryan Williams

核心¶

为 HighLevelGraph 依赖项添加验证和修复 (GH#6588) Mads R. B. Kristensen
修复代码检查问题 (GH#6598) Tom Augspurger
跳过 bokeh 版本 2.0.0 (GH#6572) John A Kirkham

DataFrame¶

在使用元数据时添加了每行的字节计算（GH#6585） McToel
在 Series.sum / prod 中处理 min_count (GH#6618) Daniel Saxton
更新 DataFrame.set_index 文档字符串 (GH#6549) Timost
在计算分位数时，始终计算0和1分位数 (GH#6564) Erik Welch
修复读取空csv文件时的错误路径 (GH#6573) Abdulelah Bin Mahfoodh

文档¶

文档：故障排除仪表板 404 (GH#6215) Kilian Lieret
修复 extraConfig 示例 (GH#6625) Tom Augspurger
更新支持的 Python 版本 (GH#6609) Julia Signell
文档 dask/daskhub helm 图表 (GH#6560) Tom Augspurger

2.25.0 / 2020-08-28¶

核心¶

在 subs() 中比较键哈希 (GH#6559) Mads R. B. Kristensen
使用最新的 black 版本重新运行 (GH#6568) James Bourbeau
许可证更新 (GH#6554) Tom Augspurger

DataFrame¶

添加 gs read_parquet 示例 (GH#6548) Ray Bell

文档¶

从文档页面名称中移除版本 (GH#6558) James Bourbeau
更新 kubernetes-helm.rst (GH#6523) David Sheldon
停止2020年调查（GH#6547）`Tom Augspurger`_

2.24.0 / 2020-08-22¶

数组¶

修复测试中设置随机种子的设置。(GH#6518) Elliott Sales de Andrade
在 apply gufunc 中支持元数据 (GH#6521) joshreback
将 cupy.sparse 替换为 cupyx.scipy.sparse (GH#6530) John A Kirkham

数据框¶

提高滚动测试的容差 (GH#6502) Julia Signell
实现 DatFrame.__len__ (GH#6515) Tom Augspurger
在 to_parquet 中推断箭头模式 (适用于 ArrowEngine`) (GH#6490) Richard (Rick) Zamora
在没有 pyarrow 时修复 parquet 测试 (GH#6524) Martin Durant
移除 ArrowEngine 中有问题的 filter 参数 (GH#6527) Richard (Rick) Zamora
在ArrowEngine中默认避免模式验证（GH#6536） Richard (Rick) Zamora

核心¶

在 make_blockwise_graph 中使用 unpack_collections (GH#6517) Thomas J. Fan
将 key_split() 从 optimization.py 移动到 utils.py (GH#6529) Mads R. B. Kristensen
在moto服务器上运行测试 (GH#6528) Martin Durant

2.23.0 / 2020-08-14¶

数组¶

通过广播减少 np.zeros, ones, 和 full 数组的大小 (GH#6491) Matthias Bussonnier
在 map_overlap 中为 trim 添加缺失的 meta= (GH#6494) Peter Andreas Entschev

包¶

袋子重新分区分区大小 (GH#6371) joshreback

核心¶

Scalar.__dask_layers__() 返回 self._name 而不是 self.key (GH#6507) Mads R. B. Kristensen
在 fuse_root 优化中正确更新依赖 (GH#6508) Mads R. B. Kristensen

DataFrame¶

将 items 添加到数据框 (GH#6503) Thomas J. Fan
在 write_table 调用中包含压缩 (GH#6499) Julia Signell
修复了 nonempty_series 中的警告 (GH#6485) Tom Augspurger
基于第一个参数的类型智能确定分区 (GH#6479) Matthew Rocklin
修复 pyarrow mkdirs (GH#6475) Julia Signell
修复 to_parquet 中的重复 parquet 输出 (GH#6451) michaelnarodovitch

文档¶

修复文档 da.histogram (GH#6439) Roberto Panai
添加 agg nunique 示例 (GH#6404) Ray Bell
修复了SQL文档中的几个拼写错误 (GH#6489) Mike McCarty
SQLing 文档 (GH#6453) Martin Durant

2.22.0 / 2020-07-31¶

数组¶

NumPy dtype 弃用兼容性 (GH#6430) Tom Augspurger

核心¶

为某些 bytes 类对象实现 sizeof (GH#6457) John A Kirkham
新的 fsspec 的 HTTP 错误 (GH#6446) Martin Durant
当 RecursionError 被引发时，从 tokenize 函数返回 uuid (GH#6437) Julia Signell
安装上游开发包的依赖 (GH#6431) Tom Augspurger
在 setup.cfg 中使用更新后的链接 (GH#6426) Zhengnan Zhao

DataFrame¶

如果字符串，则在列名周围添加单引号 (GH#6471) Gil Forsyth
重构 ArrowEngine 以提升 read_parquet 性能 (GH#6346) Richard (Rick) Zamora
添加 tolist 分派 (GH#6444) GALI PREM SAGAR
与 pandas 1.1.0rc0 的兼容性 (GH#6429) Tom Augspurger
多值数据透视表 (GH#6428) joshreback
to_csv 文档字符串中的重复参数定义 (GH#6411) Jun Han (Johnson) Ooi

文档¶

为文档添加实用工具，用于将 YAML 配置转换为环境变量并返回 (GH#6472) Jacob Tomlinson
修复参数服务器渲染 (GH#6466) Scott Sievert
修复了损坏的链接 (GH#6403) Jim Circadian
文档中完整的参数服务器实现 (GH#6449) Scott Sievert
修复拼写错误 (GH#6436) Jack Xiaosong Xu

2.21.0 / 2020-07-17¶

数组¶

在 array.routines.gradient() 中修正错误信息 (GH#6417) johnomotani
修复数组中某些 dimension=1 的块级连接问题 (GH#6342) Matthias Bussonnier

包¶

修复 bag.take 示例 (GH#6418) Roberto Panai

核心¶

优化传递中的组值应仅包含图和键——而不是优化 + 键 (GH#6409) Benjamin Zaitlen
调用自定义优化一次，提供 kwargs (GH#6382) Clark Zinzow
在Python 3.7上测试时包含 pickle5 (GH#6379) John A Kirkham

DataFrame¶

修正错误信息中的拼写错误 (GH#6422) Tom McTiernan
使用 pytest.warns 来检查 UserWarning (GH#6378) Richard (Rick) Zamora
从字符串中解析 bytes_per_chunk 关键字 (GH#6370) Matthew Rocklin

文档¶

Numpydoc 格式化 (GH#6421) Matthias Bussonnier
在1.1版本发布后取消固定 numpydoc (GH#6407) Gil Forsyth
Numpydoc 格式化 (GH#6402) Matthias Bussonnier
在为开发安装代码时添加使用conda的说明 (GH#6399) Ray Bell
更新 visualize 文档字符串 (GH#6383) Zhengnan Zhao

2.20.0 / 2020-07-02¶

数组¶

为 numpy 零步长数组注册 sizeof (GH#6343) Matthias Bussonnier
在 concatenate 中使用 concatenate_lookup (GH#6339) John A Kirkham
修复具有某些零长度维度的数组的重新分块 (GH#6335) Matthias Bussonnier

DataFrame¶

将 iloc 调用分派给 getitem (GH#6355) Gil Forsyth
在 fastparquet 引擎中处理未命名的 pandas RangeIndex (GH#6350) Richard (Rick) Zamora
在使用 pyarrow 编写分区 parquet 数据集时保留索引 (GH#6282) Richard (Rick) Zamora
使用 ignore_index 进行 pandas 的 group_split_dispatch (GH#6251) Richard (Rick) Zamora

文档¶

添加描述参数的文档 (GH#6318) asmith26

2.19.0 / 2020-06-19¶

数组¶

将块大小转换为 Python int dtype (GH#6326) Gil Forsyth
在 *_like() 数组创建函数中添加 shape=None (GH#6064) Anderson Banihirwe

核心¶

更新 fsspec 中协议差异的预期错误消息 (GH#6331) Gil Forsyth
修复 parse_bytes 中小于1的浮点数 (GH#6311) Gil Forsyth
修复代码库中所有异常的原因 (GH#6308) Ram Rachum
修复重复的测试 (GH#6303) James Lamb
移除未使用的测试函数 (GH#6304) James Lamb

DataFrame¶

添加高层次CSV子图 (GH#6262) Gil Forsyth
修复在合并仅包含索引的1分区数据帧时出现的 ValueError (GH#6309) Krishan Bhasin
使 index.map 清晰划分。(GH#6285) Julia Signell

文档¶

添加2020年调查的链接 (GH#6328) Tom Augspurger
更新 bag.rst (GH#6317) Ben Shaver

2.18.1 / 2020-06-09¶

数组¶

不要尝试在 full (GH#6299) 上设置名称 Julia Signell
直方图：支持范围/箱的惰性值（另一种方式）(GH#6252) Gabe Joseph

核心¶

修复 utils.py 中的异常原因 (GH#6302) Ram Rachum
改进 HighLevelGraph 构建的性能 (GH#6293) Julia Signell

文档¶

现在 readthedocs 构建了未发布功能的文档字符串 (GH#6295) Antonio Ercole De Luca
添加 asyncssh intersphinx 映射 (GH#6298) Jacob Tomlinson

2.18.0 / 2020-06-05¶

数组¶

如果与原始形状相同，则将切片索引转换为 dask 数组 (GH#6273) Julia Signell
修复 stack 错误信息 (GH#6268) Stephanie Gott
full 和 full_like：非标量 fill_value 上的错误 (GH#6129) Huite
在 map_overlap 中支持多个数组 (GH#6165) Eric Czech
填充重采样分区以便计算边缘 (GH#6255) Julia Signell

包¶

从 dask 包中随机抽样 k 个元素 #4799 (GH#6239) Antonio Ercole De Luca

DataFrame¶

将 dropna、sort 和 ascending 添加到 sort_values (GH#5880) Julia Signell
泛化 from_dask_array (GH#6263) GALI PREM SAGAR
为 SeriesGroupby.nunique 添加派生文档字符串 (GH#6284) Julia Signell
在按规则重采样时移除 NotImplementedError (GH#6274) Abdulelah Bin Mahfoodh
添加 dd.to_sql (GH#6038) Ryan Williams

文档¶

更新远程数据部分 (GH#6258) Ray Bell

2.17.2 / 2020-05-28¶

核心¶

重新添加 complete 额外功能 (GH#6257) Jim Crist-Harif

DataFrame¶

如果 resample 不能给出正确答案，则引发错误 (GH#6244) Julia Signell

2.17.1 / 2020-05-28¶

数组¶

空数组重新分块 (GH#6233) Andrew Fulton

核心¶

将 pyyaml 设为必需 (GH#6250) Jim Crist-Harif
修复从 ImportError 开始的安装命令 (GH#6238) Gaurav Sheni
移除问题模板 (GH#6249) Jacob Tomlinson

DataFrame¶

从 DataFrame.shuffle 传递 ignore_index 到 dd_shuffle (GH#6247) Richard (Rick) Zamora
处理缺失的HDF键 (GH#6204) Martin Durant
泛化 describe 和 quantile API (GH#5137) GALI PREM SAGAR

2.17.0 / 2020-05-26¶

数组¶

对 da.pad 的小改进 (GH#6213) Mark Boer
如果在 dask.array.apply_gufunc 中有多个输出，则返回 tuple，并添加测试以检查元组 (GH#6207) Kai Mühlbauer
支持带有未知块大小的 stack (GH#6195) swapna

包¶

随机选择包 (GH#6208) Antonio Ercole De Luca

核心¶

引发警告 delayed.visualise() (GH#6216) Amol Umbarkar
确保其他 pickle 参数工作 (GH#6229) John A Kirkham
重构 fuse() 配置 (GH#6198) crusaderky
更新 dask.order.order 以考虑使用 FIFO 和 LIFO 的“下一个”节点 (GH#5872) Erik Welch

DataFrame¶

使用 0 作为 fill_value 以支持更多聚合方法 (GH#6245) Julia Signell
泛化 rearrange_by_column_tasks 并添加 DataFrame.shuffle (GH#6066) Richard (Rick) Zamora
Xfail test_rolling_numba_engine 用于较新的 numba 和较旧的 pandas (GH#6236) James Bourbeau
泛化 fix_overlap (GH#6240) GALI PREM SAGAR
修复 DataFrame.shape 在无列时的表现 (GH#6237) noreentry
在使用重叠分区的预排序索引时避免洗牌 (GH#6226) Krishan Bhasin
调整 Parquet 引擎类以更容易地进行子类化 (GH#6211) Marius van Niekerk
修复 dd.merge_asof 使用 left_on='col' 和 right_index=True 的问题 (GH#6192) noreentry
禁用 concat 的警告 (GH#6210) Tung Dang
将 AUTO_BLOCKSIZE 移出 read_csv 签名 (GH#6214) Jim Crist-Harif
.loc 使用可调用对象进行索引 (GH#6185) Endre Mark Borza
避免在 _compute_sum_of_squares 中应用 groupby std agg (GH#6186) Richard (Rick) Zamora
对 test_parquet 的小修正 (GH#6190) Brian Larsen
遵循传递的分隔符连接模式并修复错误消息 (GH#6194) GALI PREM SAGAR
如果没有可用的 parquet 库，则跳过 test_to_parquet_with_get (GH#6188) Scott Sanderson

文档¶

为 distributed.Event 类添加了文档 (GH#6231) Nils Braun
文档写入远程 (GH#6124) Ray Bell

2.16.0 / 2020-05-08¶

数组¶

修复数组通用归约名称 (GH#6176) Nick Evans
在 unravel_index 中将 dim 替换为 shape (GH#6155) Julia Signell
时刻：处理所有元素被遮罩的情况 (GH#5339) Gabe Joseph

核心¶

移除dask代码库中冗余的字符串拼接 (GH#6137) GALI PREM SAGAR
上游兼容性 (GH#6159) Tom Augspurger
确保 sizeof 对于字典和序列返回一个整数 (GH#6179) James Bourbeau
通过随机抽样估计Python集合大小 (GH#6154) Florian Jetter
更新上游测试 (GH#6146) Tom Augspurger
跳过mindeps构建的测试 (GH#6144) Tom Augspurger
将默认的多进程上下文切换为“spawn” (GH#4003) Itamar Turner-Trauring
更新清单以包含 dask-schema (GH#6140) Benjamin Zaitlen

DataFrame¶

在基于 pyarrow 的 read_parquet 中强化不一致模式处理 (GH#6160) Richard (Rick) Zamora
向写入磁盘数据的方法添加计算 kwargs (GH#6056) Krishan Bhasin
修复 unique 从后端返回类似索引结果的问题 (GH#6153) GALI PREM SAGAR
修复 map_partitions 中与集合相关的内部错误 (GH#6103) Tom Augspurger

文档¶

将计算阶段添加到索引目录 (GH#6157) Benjamin Zaitlen
移除调度脚本中未使用的导入 (GH#6138) James Lamb
修复缩进 (GH#6147) Martin Durant
添加 Tom 的日志配置示例 (GH#6143) Martin Durant

2.15.0 / 2020-04-24¶

数组¶

更新 dask.array.from_array 以在传递 Dask 集合时发出警告 (GH#6122) James Bourbeau
dask.array.pad 中的非 numpy 行为 (GH#6042) Mark Boer
在 da.repeat 中添加对 repeats=0 的支持 (GH#6080) James Bourbeau

核心¶

修复架构的yaml布局（GH#6132） Benjamin Zaitlen
配置参考 (GH#6069) Benjamin Zaitlen
添加配置选项以关闭任务融合 (GH#6087) Matthew Rocklin
在Windows上跳过pyarrow (GH#6094) Tom Augspurger
设置融合键的最大长度限制 (GH#6057) Lucas Rademaker
针对 #6062 添加测试 (GH#6072) Martin Durant
将结账操作升级到 v2 (GH#6065) James Bourbeau

DataFrame¶

泛化分类调用以支持 cudf Categorical (GH#6113) GALI PREM SAGAR
避免在每个工作节点上读取 _metadata (GH#6017) Richard (Rick) Zamora
在 apply_concat_apply 中使用 group_split_dispatch 和 ignore_index (GH#6119) Richard (Rick) Zamora
使用 pyarrow 处理新的 (dtype) pandas 元数据 (GH#6090) Richard (Rick) Zamora
如果未安装 pyarrow，则跳过 test_partition_on_cats_pyarrow (GH#6112) James Bourbeau
更新 DataFrame len 以处理同名列 (GH#6111) James Bourbeau
ArrowEngine 错误修复和测试覆盖率 (GH#6047) Richard (Rick) Zamora
添加了模式 (GH#5958) Adam Lewis

文档¶

更新“helm install”以适应 Helm 3 的使用 (GH#6130) JulianWgs
扩展预加载文档 (GH#6077) Matthew Rocklin
修复了 DataFrame map_partitions() 文档字符串中的小拼写错误 (GH#6115) Eugene Huang
修正拼写错误：“double” 应为 times，而不是 plus (GH#6091) David Chudzicki
修复 array.random.* 文档的第一行 (GH#6063) Martin Durant
在分布式中添加关于 Semaphore 的部分 (GH#6053) Florian Jetter

2.14.0 / 2020-04-03¶

数组¶

添加了 np.iscomplexobj 实现 (GH#6045) Tom Augspurger

核心¶

更新 test_rearrange_disk_cleanup_with_exception 以在没有安装 cloudpickle 的情况下通过 (GH#6052) James Bourbeau
修复了不稳定的 test-rearrange (GH#5977) Tom Augspurger

DataFrame¶

在 stack_partitions 中使用 _meta_nonempty 进行 dtype 转换 (GH#6061) mlondschien
修复了在 parquet ArrowEngine 中 _metadata 创建和过滤的错误 (GH#6023) Richard (Rick) Zamora

文档¶

文档：添加名称注意事项 (GH#6040) Tom Augspurger

2.13.0 / 2020-03-25¶

数组¶

在 da.random 中支持 dtype 和其他关键字参数 (GH#6030) Matthew Rocklin
注册对 cupy 稀疏 hstack/vstack 的支持 (GH#5735) Corey J. Nolet
在 dask.array 中强制 self.name 为 str (GH#6002) Chuanzhu Xu

包¶

在 bag.optimize 中默认将 rename_fused_keys 设置为 None (GH#6000) Lucas Rademaker

核心¶

在 to_graphviz 中复制字典以防止覆盖 (GH#5996) JulianWgs
更严格的 pandas xfail (GH#6024) Tom Augspurger
修复CI失败 (GH#6013) James Bourbeau
将 toolz 更新到 0.8.2 并使用 tlz (GH#5997) Ryan Grout
将 Windows CI 构建迁移到 GitHub Actions (GH#5862) James Bourbeau

DataFrame¶

改进 read_hdf 中的路径相关异常 (GH#6032) psimaj
修复 dd.concat 中的 dtype 处理 (GH#6006) mlondschien
处理cudf的leftsemi和leftanti连接 (GH#6025) Richard J Zamora
在 dd.from_pandas 中移除未使用的 npartitions 变量 (GH#6019) Daniel Saxton
为 DataFrame.random_split 添加了 shuffle 功能 (GH#5980) petiop

文档¶

修复调度器概览文档中的缩进问题 (GH#6022) Matthew Rocklin
在优化文档中更新任务图 (GH#5928) Julia Signell
可选地去除可视化中的中间框，并添加更多标签 (GH#5976) Julia Signell

2.12.0 / 2020-03-06¶

数组¶

通过 numpy 提高临时变量的重用率 (GH#5933) Bruce Merry
使用 block_info 制作 map_blocks 生成一个 Blockwise (GH#5896) Bruce Merry
优化 make_blockwise_graph (GH#5940) Bruce Merry
修复 da.tensordot 中的轴顺序 (GH#5975) Gil Forsyth
为 array.pad 添加空模式 (GH#5931) Thomas J. Fan

核心¶

在 dask.utils 中移除 toolz.memoize 依赖 (GH#5978) Ryan Grout
关闭池泄漏子进程 (GH#5979) Tom Augspurger
将 numpydoc 固定到 0.8.0 (修复双自动转义) (GH#5961) Gil Forsyth
为 range 对象注册确定性分词 (GH#5947) James Bourbeau
在CI中取消固定 msgpack (GH#5930) JAmes Bourbeau
确保点结果放置在唯一文件中。(GH#5937) Elliott Sales de Andrade
将剩余的可选依赖项添加到 Travis 3.8 CI 构建环境中 (GH#5920) James Bourbeau

DataFrame¶

跳过某些键的 parquet getitem 优化 (GH#5917) Tom Augspurger
在 rearrange_by_column 代码路径中添加 ignore_index 参数 (GH#5973) Richard J Zamora
添加 DataFrame 和 Series 的 memory_usage_per_partition 方法 (GH#5971) James Bourbeau
xfail 当使用 Pandas 0.24.2 时测试_describe (GH#5948) James Bourbeau
实现 dask.dataframe.to_numeric (GH#5929) Julia Signell
当列顺序不同时添加新的错误消息内容 (GH#5927) Julia Signell
在可能的情况下，使用浅拷贝进行赋值操作（GH#5740）`Richard J Zamora`_

文档¶

在 dask.array.triu 文档中将上方改为下方 (GH#5984) Henrik Andersson
数组切片：修复 slice_with_int_dask_array 错误信息中的拼写错误 (GH#5981) Gabe Joseph
文档字符串的语法和格式更新 (GH#5963) James Lamb
使用conda选项更新开发文档 (GH#5939) Ray Bell
更新 DataFrame 扩展文档的标题 (GH#5954) James Bourbeau
修复了文档中的拼写错误 (GH#5962) James Lamb
在 _bind_* 方法中添加原始类或模块作为 kwarg (GH#5946) Julia Signell
添加收集列表示例 (GH#5938) Ray Bell
更新Python 3的优化文档 (GH#5926) Julia Signell

2.11.0 / 2020-02-19¶

数组¶

缓存 Array.shape 的结果 (GH#5916) Bruce Merry
提高 rechunk 的 estimate_graph_size 的准确性 (GH#5907) Bruce Merry
跳过不改变分块的重新分块步骤 (GH#5909) Bruce Merry
在 coarsen 中支持 dtype 和其他 kwargs (GH#5903) Matthew Rocklin
将 map_blocks 中的块覆盖推入 blockwise (GH#5895) Bruce Merry
避免对单例使用 rewrite_blockwise (GH#5890) Bruce Merry
优化 slices_from_chunks (GH#5891) Bruce Merry
在 block() 中避免不必要的 __getitem__ 当块具有正确的维度时 (GH#5884) Thomas Robitaille

包¶

为 dask.bag.read_text 添加 include_path 选项 (GH#5836) Yifan Gu
修复了延迟执行 bagged NumPy 数组中的 ValueError (GH#5828) Surya Avala

核心¶

CI: 固定 msgpack (GH#5923) Tom Augspurger
将 test_inner 重命名为 test_outer (GH#5922) Shiva Raisinghani
quote 也应该引用字典 (GH#5905) Bruce Merry
为字面量注册一个规范化器（GH#5898） Bruce Merry
改进非HLG的层名称合成 (GH#5888) Bruce Merry
将flake8预提交钩子替换为上游 (GH#5892) Julia Signell
调用 pip 作为模块以避免警告 (GH#5861) Cyril Shcherbin
在退出时关闭 ThreadPool (GH#5852) Tom Augspurger
在分词代码中移除 dask.dataframe 导入 (GH#5855) James Bourbeau

DataFrame¶

需要 pandas>=0.23 (GH#5883) Tom Augspurger
从数据框聚合中移除 lambda (GH#5901) Matthew Rocklin
修复 dataframe/__init__.py 中的异常链 (GH#5882) Ram Rachum
为空数据框添加归约支持 (GH#5804) Shiva Raisinghani
为 groupby 暴露 sort= 参数 (GH#5801) Richard J Zamora
添加 df.empty 属性 (GH#5711) rockwellw
使用 fastparquet.api.paths_to_cats 中的 parquet 读取速度优化。(GH#5821) Igor Gotlibovych

文档¶

弃用 doc_wraps (GH#5912) Tom Augspurger
更新数组内部设计文档以适应 HighLevelGraph 时代 (GH#5889) Bruce Merry
移动仪表板连接文档 (GH#5877) Matthew Rocklin
将 Prometheus 文档从 distributed.dask.org 移动 (GH#5876) Matthew Rocklin
移除末尾重复的 DO 块 (GH#5878) K.-Michael Aye
map_blocks 另见 (GH#5874) Tom Augspurger
更多源自 (GH#5871) Julia Signell
修复拼写错误 (GH#5866) Yetunde Dada
修复 cloud.rst 中的拼写错误 (GH#5860) Andrew Thomas
添加指向行为准则和多样性声明的注释 (GH#5844) Matthew Rocklin

2.10.1 / 2020-01-30¶

修复 Pandas 1.0 版本比较 (GH#5851) Tom Augspurger
修复分布式诊断文档中的拼写错误 (GH#5841) Gerrit Holl

2.10.0 / 2020-01-28¶

对 pandas 1.0 的新 BooleanDtype 和 StringDtype 的支持 (GH#5815) Tom Augspurger
与 pandas 1.0 的 API 破坏性变更和弃用项的兼容性 (GH#5792) Tom Augspurger
修复了一些扩展数组支持的 pandas 对象的非确定性分词 (GH#5813) Tom Augspurger
修复了集合中数据类对象的处理 (GH#5812) Matteo De Wint
当其中一个端点落在不存在的时刻时，使用tz-aware日期进行固定重采样 (GH#5807) dfonnegra
延迟 Zarr 数据集的初始创建，直到计算发生 (GH#5797) Chris Roat
在更多情况下使用 pyarrow 引擎的 parquet 数据集统计信息 (GH#5799) Richard J Zamora
当某些键为大整数时，groupby.std() 中的固定异常 (GH#5737) H. Thomson Comer

2.9.2 / 2020-01-16¶

数组¶

在 broadcast_arrays 中统一块 (GH#5765) Matthew Rocklin

核心¶

xfail CSV 编码测试 (GH#5791) Tom Augspurger
更新订单以处理空的 dask 图 (GH#5789) James Bourbeau
重做 dask.order.order (GH#5646) Erik Welch

DataFrame¶

为磁盘上的shuffle添加透明压缩，使用 partd (GH#5786) Christian Wesp
修复空数据框的 repr (GH#5781) Shiva Raisinghani
Pandas 1.0.0RC0 兼容 (GH#5784) Tom Augspurger
移除有问题的断言 (GH#5783) Tom Augspurger
Pandas 1.0 兼容 (GH#5782) Tom Augspurger
修复了基于 pyarrow 的 read_parquet 在分区数据集上的错误 (GH#5777) Richard J Zamora
pandas 1.0 的兼容性 (GH#5779) Tom Augspurger
修复带有分类索引的 groupby/mean 错误 (GH#5776) Richard J Zamora
在执行累积聚合时支持空分区 (GH#5730) Matthew Rocklin
set_index 接受单项未嵌套列表 (GH#5760) Wes Roach
有序 Categorical 集合索引中的固定分区 (GH#5715) Tom Augspurger

文档¶

注意 normalize_token.register 的额外用例 (GH#5766) Thomas A Caswell
更新 bag repartition 文档字符串 (GH#5772) Timost
小的拼写错误 (GH#5771) Maarten Breddels
修复任务预期文档中的拼写错误 (GH#5767) James Bourbeau
在图页面添加任务期望的文档部分 (GH#5764) Devin Petersohn

2.9.1 / 2019-12-27¶

数组¶

支持 Array.view 使用 dtype=None (GH#5736) Anderson Banihirwe
添加 dask.array.nanmedian (GH#5684) Deepak Cherian

核心¶

在 Python 3.8 上 xfail test_temporary_directory (GH#5734) James Bourbeau
添加对 Python 3.8 的支持 (GH#5603) James Bourbeau
使用 id 在 rewrite_blockwise 中去除重复常量 (GH#5696) Jim Crist

DataFrame¶

在将dask数据帧标量转换为布尔值时引发错误（GH#5743） James Bourbeau
确保数据框分组方差大于零 (GH#5728) Matthew Rocklin
修复 DataFrame.__iter__ (GH#5719) Tom Augspurger
支持在析取范式中的 Parquet 过滤器，如 PyArrow (GH#5656) Matteo De Wint
在基于 ArrowEngine 的 read_parquet 中自动检测分类列 (GH#5690) Richard J Zamora
如果没有找到引擎，跳过parquet getitem优化测试 (GH#5697) James Bourbeau
修复了 parquet-getitem 的独立优化 (GH#5613) Tom Augspurger

文档¶

更新 helm 配置文档 (GH#5750) Ray Bell
在多个地方链接到 examples.dask.org (GH#5733) Tom Augspurger
在性能报告示例中添加缺失的引号 (GH#5724) James Bourbeau
解决多个文档构建警告 (GH#5685) James Bourbeau
添加性能报告信息 (GH#5713) Benjamin Zaitlen
添加更多文档免责声明 (GH#5710) Julia Signell
修复简单拼写错误：wihout -> without (GH#5708) Tim Gates
更新 numpydoc 依赖 (GH#5694) James Bourbeau

2.9.0 / 2019-12-06¶

数组¶

修复 da.std 以使其适用于 NumPy 数组 (GH#5681) James Bourbeau

核心¶

为 Numba 和 RMM 注册 sizeof 函数 (GH#5668) John A Kirkham
更新会议时间 (GH#5682) Tom Augspurger

DataFrame¶

修改 dd.DataFrame.drop 以使用浅拷贝 (GH#5675) Richard J Zamora
修复 _get_md_row_groups 中的错误 (GH#5673) Richard J Zamora
查询数据库后关闭sqlalchemy引擎 (GH#5629) Krishan Bhasin
允许 dd.map_partitions 不强制执行元数据 (GH#5660) Matthew Rocklin
将 concat_unindexed_dataframes 泛化以支持 cudf-backend (GH#5659) Richard J Zamora
添加数据框重采样方法 (GH#5636) Benjamin Zaitlen
计算数据框的长度为第一列的长度 (GH#5635) Matthew Rocklin

文档¶

文档修复 (GH#5665) James Bourbeau
更新文档构建说明 (GH#5640) James Bourbeau
修复ADL链接 (GH#5639) Ray Bell
添加文档构建 (GH#5617) James Bourbeau

2.8.1 / 2019-11-22¶

数组¶

如果在 da.rechunk 中没有给出值，请使用自动重新分块 (GH#5605) Matthew Rocklin

核心¶

添加简单操作以激活 GH 操作 (GH#5619) James Bourbeau

DataFrame¶

修复 aggregate_row_groups 中的“file_path_0”错误 (GH#5627) Richard J Zamora
为 read_parquet 添加 chunksize 参数 (GH#5607) Richard J Zamora
将 test_repartition_npartitions 修改为支持 arch64 架构 (GH#5620) ossdev07
分组后丢失的类别 (GH#5423) Oliver Hofkens
修复了parquet元数据文件的相对路径问题 (GH#5608) Nuno Gomes Silva
在数据框中启用GPU支持的协方差/相关性 (GH#5597) Richard J Zamora

文档¶

修复机构常见问题和未知文档警告 (GH#5616) James Bourbeau
为一些工具添加文档 (GH#5609) Tom Augspurger
移除 html_extra_path (GH#5614) James Bourbeau
修复了“另请参见”引用 (GH#5612) Tom Augspurger

2.8.0 / 2019-11-14¶

数组¶

实现完整的 dask.array.tile 函数 (GH#5574) Bouwe Andela
沿轴添加中位数并自动重新分块 (GH#5575) Matthew Rocklin
允许 da.asarray 对输入进行分块 (GH#5586) Matthew Rocklin

包¶

在 Bag 名称中使用 key_split (GH#5571) Matthew Rocklin

核心¶

将Doctests切换到Py3.7 (GH#5573) Ryan Nazareth
放宽 get_colors 测试以适应新的 Bokeh 发布 (GH#5576) Matthew Rocklin
添加 dask.blockwise.fuse_roots 优化 (GH#5451) Matthew Rocklin
为小字典添加 sizeof 实现 (GH#5578) Matthew Rocklin
更新 fsspec, gcsfs, s3fs (GH#5588) Tom Augspurger

DataFrame¶

为 groupby 添加 dropna 参数 (GH#5579) Richard J Zamora
恢复“移除 dask_cudf 的导入，它现在是 cudf 的一部分 (GH#5568)” (GH#5590) Matthew Rocklin

文档¶

为 dask.compute 函数添加最佳实践 (GH#5583) Matthew Rocklin
创建 FUNDING.yml (GH#5587) Gina Helfrich
为协调原语添加屏幕录制 (GH#5593) Matthew Rocklin
将资金转移到 .github 仓库 (GH#5589) Tom Augspurger
更新日历链接 (GH#5569) Tom Augspurger

2.7.0 / 2019-11-08¶

此版本放弃了对 Python 3.5 的支持

数组¶

重用 assert_eq 工具方法的代码 (GH#5496) Vijayant
更新 da.array 以始终返回一个 dask 数组 (GH#5510) James Bourbeau
在平凡输入上跳过转置 (GH#5523) Ryan Abernathey
在tokenize中避免使用NumPy标量字符串表示 (GH#5527) James Bourbeau
移除不必要的 tiledb 形状约束 (GH#5545) Norman Barker
从稀疏数组HTML表示中移除字节 (GH#5556) James Bourbeau

核心¶

放弃 Python 3.5 (GH#5528) James Bourbeau
更新分布式测试中夹具的使用 (GH#5497) Matthew Rocklin
将已弃用的 bokeh-port 更改为 dashboard-address (GH#5507) darindf
避免在 ensure_dict 中使用相同的字典进行更新 (GH#5501) James Bourbeau
测试上游 (GH#5516) Tom Augspurger
加速 reverse_dict (GH#5479) Ryan Grout
更新 test_imports.sh (GH#5534) James Bourbeau
在多进程和线程调度器中支持 cgroups 的 CPU 数量限制 (GH#5499) Albert DeFusco
在CI上更新最小pyarrow版本 (GH#5562) James Bourbeau
使 cloudpickle 成为可选 (GH#5511) crusaderky

DataFrame¶

添加了 index_col 使用的示例 (GH#3072) Bruno Bonfils
显式使用 iloc 进行行索引 (GH#5500) Krishan Bhasin
在列分配时接受 dask 数组 (GH#5224) Henrique Ribeiro-
为 SeriesGroupBy 实现 unique 和 value_counts (GH#5358) Scott Sievert
为 pyarrow 表和列添加 sizeof 定义 (GH#5522) Richard J Zamora
在基于pyarrow的read_parquet中启用行组任务分区 (GH#5508) Richard J Zamora
从 dd.merge 文档字符串中移除 npartitions=’auto’ (GH#5531) James Bourbeau
应用强制错误消息显示非重叠列。(GH#5530) Tom Augspurger
优化重复 dtypes 的 meta_nonempty (GH#5553) Petio Petrov
移除 dask_cudf 的导入，它现在已成为 cudf 的一部分 (GH#5568) Mads R. B. Kristensen

文档¶

在FAQ文档中使大写更加一致 (GH#5512) Matthew Rocklin
添加 CONTRIBUTING.md (GH#5513) Jacob Tomlinson
文档可选依赖 (GH#5456) Prithvi MK
更新 helm chart 文档以反映新的 chart 仓库 (GH#5539) Jacob Tomlinson
将重采样器添加到API文档 (GH#5551) James Bourbeau
修复了 read_sql_table 中的拼写错误 (GH#5554) Eric Dill
添加自适应部署屏幕录像 [skip ci] (GH#5566) Matthew Rocklin

2.6.0 / 2019-10-15¶

核心¶

在进入 toolz.merge 之前对图表调用 ensure_dict (GH#5486) Matthew Rocklin
合并哈希分派函数 (GH#5476) Richard J Zamora

DataFrame¶

在 Parquet 代码中支持 Python 3.5 (GH#5491) Benjamin Zaitlen
避免在 warn_dtype_mismatch 中进行身份检查 (GH#5489) Tom Augspurger
启用未使用的groupby测试 (GH#3480) Jörg Dietrich
移除旧的parquet和bcolz数据帧优化 (GH#5484) Matthew Rocklin
为 read_parquet 添加 getitem 优化 (GH#5453) Tom Augspurger
使用 _constructor_sliced 方法来确定 Series 类型 (GH#5480) Richard J Zamora
修复未排序基础系列索引的 map(series) (GH#5459) Justin Waugh
修复 KeyError 与 Groupby 标签 (GH#5467) Ryan Nazareth

文档¶

使用 Zoom 会议代替 appear.in (GH#5494) Matthew Rocklin
添加了精选资源列表 (GH#5460) Javad
更新SSH文档以包含 SSHCluster (GH#5482) Matthew Rocklin
更新“为什么选择Dask？”页面 (GH#5473) Matthew Rocklin
修复文档字符串中的拼写错误 (GH#5469) garanews

2.5.2 / 2019-10-04¶

数组¶

修正非对称重叠的块大小逻辑 (GH#5449) Ben Jeffery
将 da.unify_chunks 设为公共 API (GH#5443) Matthew Rocklin

DataFrame¶

修复 dask.dataframe.fillna 处理标量对象的问题 (GH#5463) 李振清

文档¶

在Spark比较页面中移除方框 (GH#5445) Matthew Rocklin
添加最新演示文稿 (GH#5446) Javad
更新云文档 (GH#5444) Matthew Rocklin

2.5.0 / 2019-09-27¶

核心¶

在 get_dependencies 任务中添加 sentinel no_default (GH#5420) James Bourbeau
更新 fsspec 版本 (GH#5415) Matthew Rocklin
移除 PY2 检查 (GH#5400) Jim Crist

DataFrame¶

添加选项以不在 dd.from_delayed 中检查元数据 (GH#5436) Christopher J. Wright
修复了使用 pyarrow 主分支时 test_timeseries_nulls_in_schema 的失败问题 (GH#5421) Richard J Zamora
在 pyarrow/parquet 中减少 read_metadata 输出大小 (GH#5391) Richard J Zamora
测试使用 npartitions 进行重新分区的数值边缘情况。(GH#5433) amerkel2
取消 pandas-datareader 测试的失败标记 (GH#5430) Tom Augspurger
添加 DataFrame.pop 实现 (GH#5422) Matthew Rocklin
为基于cudf的数据帧启用merge/set_index与cupy values (GH#5322) Richard J Zamora
drop_duplicates 支持位置子集参数 (GH#5410) Wes Roach

文档¶

将屏幕录像添加到数组、包、数据框、延迟、期货和设置中 (GH#5429) (GH#5424) Matthew Rocklin
修复分隔符解析文档 (GH#5428) Mahmut Bulut
更新概览图像 (GH#5404) James Bourbeau

2.4.0 / 2019-09-13¶

数组¶

添加了显式的 h5py.File 模式 (GH#5390) James Bourbeau
提供计算未知数组块大小的方法 (GH#5312) Scott Sievert
忽略数组 compute_meta 中的运行时警告（GH#5356） estebanag
将 _meta 添加到 Array.__dask_postpersist__ (GH#5353) Benoit Bovy
修复 da.asarray 和 da.asanyarray 对于 datetime64 类型和 xarray 对象的处理 (GH#5334) Stephan Hoyer
添加形状实现 (GH#5293) Tom Augspurger
将chunktype添加到数组文本表示中 (GH#5289) James Bourbeau
Array.random.choice: 处理类似数组的非数组 (GH#5283) Gabe Joseph

核心¶

移除已弃用的代码 (GH#5401) Jim Crist
修复 funcname 当向量化函数没有 __name__ 时 (GH#5399) James Bourbeau
截断 funcname 以避免长键名 (GH#5383) Matthew Rocklin
在 funcname 中添加对 numpy.vectorize 的支持 (GH#5396) James Bourbeau
修复HDFS上游测试 (GH#5395) Tom Augspurger
在 parse_bytes/timedelta 中支持数字和 None (GH#5384) Matthew Rocklin
修复在内存映射的numpy数组上对子索引的分词问题 (GH#5351) Henry Pinkard
上游修复 (GH#5300) Tom Augspurger

DataFrame¶

允许 pandas 转换统计数据类型 (GH#5402) Richard J Zamora
在应用 dd.pivot_table 后保留索引数据类型 (GH#5385) therhaag
为 Series 和 DataFrame 实现 explode (GH#5381) Arpit Solanki
set_index 在分类上失败，类别少于分区 (GH#5354) Oliver Hofkens
支持输出到单个CSV文件 (GH#5304) Hongjiu Zhang
添加 groupby().transform() (GH#5327) Oliver Hofkens
在 pyarrow 数据集调用中添加 filter kwarg (GH#5348) Richard J Zamora
为 parquet 实现并检查压缩默认值 (GH#5335) Sarah Bird
将 sqlalchemy 参数传递给延迟对象 (GH#5332) Arpit Solanki
修复 arrow-parquet 中的模式处理 (GH#5307) Richard J Zamora
添加对 DF 和 Series groupby().idxmin/max() 的支持 (GH#5273) Oliver Hofkens
添加相关性计算并添加测试 (GH#5296) Benjamin Zaitlen

文档¶

Numpy 文档字符串标准已移动 (GH#5405) Wes Roach
引用正确的 NumPy 数组名称 (GH#5403) Wes Roach
对数组块文档的微小修改 (GH#5372) Scott Sievert
向API文档添加方法 (GH#5387) Tom Augspurger
为配置示例添加命名空间 (GH#5374) Matthew Rocklin
在诊断页面中添加 get_task_stream 和 profile (GH#5375) Matthew Rocklin
添加使用 Dask 加载数据的最佳实践 (GH#5369) Matthew Rocklin
更新 institutional-faq.rst (GH#5345) DomHudson
将线程和进程注释添加到最佳实践中 (GH#5340) Matthew Rocklin
更新 cuDF 链接 (GH#5328) James Bourbeau
修复了括号位置的小拼写错误 (GH#5311) Eugene Huang
更新 reshape 文档字符串中的链接 (GH#5297) James Bourbeau

2.3.0 / 2019-08-16¶

数组¶

当 from_array 接收到一个 dask 数组时引发异常 (GH#5280) David Hoese
避免调整 gufunc 的元数据类型两次 (GH#5274) Peter Andreas Entschev
在 map_blocks 中添加 meta= 关键字，并添加与稀疏相关的测试 (GH#5269) Matthew Rocklin
添加 rollaxis 和 moveaxis (GH#4822) Tobias de Jong
始终增加旧块索引 (GH#5256) James Bourbeau
Shuffle dask 数组 (GH#3901) Tom Augspurger
在使用布尔型dask数组索引dask数组时修复顺序 (GH#5151) James Bourbeau

包¶

为bag生成器中的内存泄漏添加解决方法 (GH#5208) Marco Neumann

核心¶

设置严格的 xfail 选项 (GH#5220) James Bourbeau
test-upstream (GH#5267) Tom Augspurger
修复HDFS CI失败 (GH#5234) Tom Augspurger
如果没有推断出文件大小，则友好地显示错误 (GH#5231) Jim Crist
对 config.set 进行了一些更改（GH#5226） Jim Crist
修复黑色字符串规范化 (GH#5227) Jim Crist
在Windows测试中固定NumPy (GH#5228) Jim Crist
如果未安装 fastparquet 和 pyarrow，请确保跳过 parquet 测试 (GH#5217) James Bourbeau
添加 fsspec 到 readthedocs (GH#5207) Matthew Rocklin
在CI测试中将NumPy和Pandas升级到1.17和0.25 (GH#5179) John A Kirkham

DataFrame¶

修复 DataFrame.query 文档字符串（错误的 numexpr API） (GH#5271) Doug Davis
Parquet 元数据处理改进 (GH#5218) Richard J Zamora
改进关于索引的排序parquet列的消息传递（GH#5265） Martin Durant
为 cudf 添加 rearrange_by_divisions 和 set_index 支持 (GH#5205) Richard J Zamora
修复 groupby.std() 带有整数列名的问题 (GH#5096) Nicolas Hug
添加 Series.__iter__ (GH#5071) Blane
将 hash_pandas_object 泛化以适用于非 pandas 后端 (GH#5184) GALI PREM SAGAR
添加滚动覆盖率 (GH#5154) Ivars Geidans
在drop函数中添加columns参数 (GH#5223) Henrique Ribeiro

文档¶

更新机构常见问题文档 (GH#5277) Matthew Rocklin
添加机构常见问题草稿 (GH#5214) Matthew Rocklin
为 dask-spark 页面制作盒子 (GH#5249) Martin Durant
添加shuffle文档的动机 (GH#5213) Matthew Rocklin
修复链接和API条目以符合最佳实践 (GH#5246) Martin Durant
移除“字节”（内部数据摄取）文档页面 (GH#5242) Martin Durant
从我们的本地分布式页面重定向到 distributed.dask.org (GH#5248) Matthew Rocklin
清理 API 页面 (GH#5247) Matthew Rocklin
从安装文档中删除多余的结束行 (GH#5243) Matthew Rocklin
移除计算阶段文档中的项目列表 (GH#5245) Martin Durant
从TOC侧边栏中移除自定义图表 (GH#5241) Matthew Rocklin
移除自定义集合的实验状态 (GH#5236) James Bourbeau
添加目录到为什么选择Dask？ (GH#5244) James Bourbeau
将背包概览移动到顶级背包页面 (GH#5240) James Bourbeau
移除用例，改为使用 stories.dask.org (GH#5238) Matthew Rocklin
移除 index.rst 中冗余的目录信息 (GH#5235) James Bourbeau
在分布式诊断文档中提升仪表盘 (GH#5239) Martin Durant
在HLG文档示例中更新“添加”层 (GH#5237) James Bourbeau
更新 GUFunc 文档 (GH#5232) Matthew Rocklin

2.2.0 / 2019-08-01¶

数组¶

如果输入遵循 NEP-18 (GH#5074) Matthew Rocklin，请使用 da.from_array(…, asarray=False)
为 from_array 文档添加缺失的属性 (GH#5108) Peter Andreas Entschev
修复某些归约函数的元计算 (GH#5035) Peter Andreas Entschev
如果在 to_zarr 中遇到未知块，则引发信息性错误 (GH#5148) James Bourbeau
移除无效的填充测试 (GH#5122) Tom Augspurger
在 compute_meta 中忽略 NumPy 警告 (GH#5103) Peter Andreas Entschev
修复单维度输入数组的峰度计算 (GH#5177) @andrethrill
在测试中支持 Numpy 1.17 (GH#5192) Matthew Rocklin

包¶

向袋测试提供供应池以解决间歇性失败 (GH#5172) Tom Augspurger

核心¶

基于 fsspec 的 dask (GH#5064) (GH#5121) Martin Durant
各种上游兼容性修复 (GH#5056) Tom Augspurger
再次将分布式测试设为可选。(GH#5128) Elliott Sales de Andrade
修复 dask 中的 HDFS (GH#5130) Martin Durant
忽略一些更多的无效值警告。(GH#5140) Elliott Sales de Andrade

DataFrame¶

修复 pd.MultiIndex 大小估计 (GH#5066) Brett Naul
泛化 has_known_categories (GH#5090) GALI PREM SAGAR
重构 Parquet 引擎 (GH#4995) Richard J Zamora
为系列和数据框添加除法方法 (GH#5094) msbrown47
修复不稳定的 partd 测试 (GH#5111) Tom Augspurger
调整 is_dataframe_like 以适应 value_counts 的变化 (GH#5143) Tom Augspurger
将滚动窗口泛化以支持非Pandas数据框 (GH#5149) Nick Becker
避免在 pivot_table 中不必要的聚合 (GH#5173) Daniel Saxton
在apply_and_enforce错误信息中添加列名 (GH#5180) Matthew Rocklin
向 to_parquet 添加 schema 关键字参数 (GH#5150) Sarah Bird
在访问器中移除递归错误 (GH#5182) Jim Crist
允许 fastparquet 处理 gather_statistics=False 的文件列表 (GH#5157) Richard J Zamora

文档¶

在 README 中添加 NumFOCUS 徽章 (GH#5086) James Bourbeau
更新开发者文档 [ci skip] (GH#5093) Jim Crist
文档 DataFrame.set_index 计算行为 Natalya Rapstine
使用 pip install . 而不是调用 setup.py (GH#5139) Matthias Bussonier
关闭用户调查 (GH#5147) Tom Augspurger
修复Google日历会议链接 (GH#5155) Loïc Estève
添加 Docker 镜像自定义示例 (GH#5171) James Bourbeau
在 fsspec 之后更新 remote-data-services (GH#5170) Martin Durant
修复了 spark.rst 中的拼写错误 (GH#5164) Xavier Holt
更新 setup/python 文档以支持 async/await API (GH#5163) Matthew Rocklin
更新本地存储HPC文档 (GH#5165) Matthew Rocklin

2.1.0 / 2019-07-08¶

数组¶

为 svd_compressed 添加 recompute= 关键字以减少内存使用 (GH#5041) Matthew Rocklin
为向后兼容更改 __array_function__ 实现 (GH#5043) Ralf Gommers
为 apply_along_axis 添加了 dtype 和 shape 关键字参数 (GH#3742) Davis Bennett
修复空元组轴的减少问题 (GH#5025) Peter Andreas Entschev
在 stack 中删除大小为 0 的数组 (GH#4978) John A Kirkham

核心¶

从 pandas to_parquet 调用中移除索引关键字 (GH#5075) James Bourbeau
修复上游开发CI构建安装 (GH#5072) James Bourbeau
确保标量数组不被渲染为SVG (GH#5058) Willi Rath
环境创建重构 (GH#5038) Tom Augspurger
s3fs, moto 兼容性 (GH#5033) Tom Augspurger
pytest 5.0 兼容 (GH#5027) Tom Augspurger

DataFrame¶

修复 compute_meta 在 blockwise 中的递归 (GH#5048) Peter Andreas Entschev
在 get_dummies 中移除对 pandas 的硬依赖 (GH#5057) GALI PREM SAGAR
使用 DataFrame.assign 时检查数据类型不变 (GH#5047) asmith26
修复具有多个分区的表上的累积函数 (GH#5034) tshatrov
在重新分区中处理不可分割的大小 (GH#5013) George Sakkis
处理了 pyarrow 中的时间戳和 preserve_index 变化 (GH#5018) Richard J Zamora
修复 str.split(expand=False) 的未定义 meta (GH#5022) Brett Naul
移除了用于调试 merge_asof 的检查 (GH#5011) Cody Johnson
在数据框中获取访问器时不要使用类型 (GH#4992) Matthew Rocklin
将 melt 作为 Dask DataFrame 的方法 (GH#4984) Dustin Tindall
为 to_hdf 添加路径类支持 (GH#5003) James Bourbeau

文档¶

指向 JupyterHub 文档中的最新 K8s 设置文章 (GH#5065) Sean McKenna
将 vizualize 改为 visualize (GH#5061) David Brochart
修复延迟最佳实践中的 from_sequence 拼写错误 (GH#5045) James Bourbeau
在文档中添加用户调查链接 (GH#5026) James Bourbeau
修复了优化文档中的拼写错误 (GH#5015) James Bourbeau
更新社区会议信息 (GH#5006) Tom Augspurger

2.0.0 / 2019-06-25¶

数组¶

在da.indices中支持自动分块 (GH#4981) James Bourbeau
如果没有数组可以堆叠则报错 (GH#4975) John A Kirkham
非对称数组重叠 (GH#4863) Michael Eaton
在dask数组内尽可能地调度连接 (GH#4669) Hameer Abbasi
修复在同一文件的不同部分对内存映射的 numpy 数组进行分词的问题 (GH#4931) Henry Pinkard
在 da.asarray 中保留 NumPy 条件以保持输出形状 (GH#4945) Alistair Miles
扩展 foo_like_safe 用法 (GH#4946) Peter Andreas Entschev
将einsum参数的顺序/类型转换推迟到NumPy实现 (GH#4914) Peter Andreas Entschev
在矩计算中移除 numpy 警告 (GH#4921) Matthew Rocklin
修复 meta_from_array 以支持 Xarray 测试套件 (GH#4938) Matthew Rocklin
缓存整数切片的块边界 (GH#4923) Bruce Merry
在连接中丢弃大小为0的数组 (GH#4167) John A Kirkham
如果没有给定数组，则引发 ValueError (GH#4927) John A Kirkham
使用 _meta 在 concatenate 中提升类型 (GH#4925) John A Kirkham
在Dask数组中为html repr添加块类型 (GH#4895) Matthew Rocklin
添加 Dask Array._meta 属性 (GH#4543) Peter Andreas Entschev
- 修复灵活类型的 _meta 切片 (GH#4912) Peter Andreas Entschev
- 在concatenate中进行了小的元构建清理 (GH#4937) Peter Andreas Entschev
- 进一步放宽 Xarray 的数组元检查 (GH#4944) Matthew Rocklin
- 在 da.from_delayed 中支持 meta= 关键字 (GH#4972) Matthew Rocklin
- 沿轴连接元数据 (GH#4977) John A Kirkham
- 在堆栈中使用元数据 (GH#4976) John A Kirkham
- 将 blockwise_meta 移动到更通用的 compute_meta 函数 (GH#4954) Matthew Rocklin
将 dask 数组的 .partitions 别名为 .blocks 属性 (GH#4853) Genevieve Buckley
删除过时的 numpy_compat 函数 (GH#4850) John A Kirkham
允许 da.eye 在 chunks=’auto’ 时支持任意块大小 (GH#4834) Anderson Banihirwe
修复 dask.array 测试中的 CI 警告 (GH#4805) Tom Augspurger
使 map_blocks 与 drop_axis + block_info 一起工作 (GH#4831) Bruce Merry
在 Array._repr_html_ 中添加 SVG 图像和表格 (GH#4794) Matthew Rocklin
ufunc: 避免使用 __array_wrap__ 而支持 __array_function__ (GH#4708) Peter Andreas Entschev
确保微小填充返回原始数组 (GH#4990) John A Kirkham
测试 da.block 与 0 大小的数组 (GH#4991) John A Kirkham

核心¶

放弃 Python 2.7 (GH#4919) Jim Crist
CI 中的静默依赖安装 (GH#4960) Tom Augspurger
在测试中引发警告 (GH#4916) Tom Augspurger
在 setup.py 中添加诊断扩展（包括 bokeh）(GH#4924) John A Kirkham
为 OpenFile 添加换行符分隔符关键字 (GH#4935) btw08
重载 HighLevelGraphs 的 values 方法 (GH#4918) James Bourbeau
将 __await__ 方法添加到 Dask 集合中 (GH#4901) Matthew Rocklin
如果安装了 snappy（非 python-snappy），也忽略可能发生的 AttributeErrors (GH#4908) Mark Bell
在 config.rename 中规范化键名 (GH#4903) Ian Bolliger
将最小 partd 版本提升至 0.3.10 (GH#4890) Tom Augspurger
捕获 async def 语法错误 (GH#4836) James Bourbeau
在 ensure_file 中捕获 IOError (GH#4806) Justin Poehnelt
清理 CI 警告 (GH#4798) Tom Augspurger
将 distributed 的解析和格式化功能移至 dask.utils (GH#4793) Matthew Rocklin
应用黑色格式化 (GH#4983) James Bourbeau
wheels 中的包许可证文件 (GH#4988) John A Kirkham

DataFrame¶

为 repartition 添加一个可选的 partition_size 参数 (GH#4416) George Sakkis
merge_asof 和 prefix_reduction (GH#4877) Cody Johnson
允许数据框由 dask 数组索引 (GH#4882) Endre Mark Borza
避免在 pytest.raises 中使用已弃用的 message 参数 (GH#4962) James Bourbeau
更新 test_to_records 以测试长度参数(GH#4515) asmith26
在数据帧访问器中移除 pandas 固定 (GH#4955) Matthew Rocklin
修复具有相同名称的序列的相关性 (GH#4934) Philipp S. Sommer
将 Dask 系列映射到 Dask 系列 (GH#4872) Justin Waugh
在 dd.merge 中警告 dtype 警告 (GH#4917) mcsoini
添加 groupby 协方差/相关性 (GH#4889) Benjamin Zaitlen
保持索引名称与 to_datetime (GH#4905) Ian Bolliger
为数据框添加并行方差计算 (GH#4865) Ksenia Bobrova
向数组和数据框添加 divmod 实现 (GH#4884) Henrique Ribeiro
为数据框重塑方法添加文档 (GH#4896) tpanza
避免使用 pandas.compat (GH#4881) Tom Augspurger
为 Series、DataFrame 和 Index 添加了访问器注册 (GH#4829) Tom Augspurger
向 read_json 添加 read_function 关键字 (GH#4810) Richard J Zamora
在 check_meta 中提供完整的类型名称 (GH#4819) Matthew Rocklin
正确估计 read_sql_table 中的每行字节数 (GH#4807) Lijo Jose
为 describe() 添加非数值数据的支持 (GH#4791) Ksenia Bobrova
扩展数据类型的标量。(GH#4459) Tom Augspurger
在 dd.from_delayed 中调用 head 之前进行 compute (GH#4802) Matthew Rocklin
在具有基于时间的索引的 DataFrame 中，添加对窗口大于分区大小的滚动操作的支持 (GH#4796) Jorge Pessoa
更新 groupby-apply 文档并添加警告 (GH#4800) Tom Augspurger
在 _maybe_slice 中更改 groupby-ness 测试 (GH#4786) Benjamin Zaitlen
添加主最佳实践文档 (GH#4745) Matthew Rocklin
添加关于Dask如何与GPU协同工作的文档 (GH#4792) Matthew Rocklin
添加 cli API 文档 (GH#4788) James Bourbeau
确保 concat 输出具有一致的 dtypes (GH#4692) Guillaume Lemaitre
修复了 pandas_datareader 依赖项的安装 (GH#4989) James Bourbeau
在 read_hdf 中接受 pathlib.Path 作为模式 (GH#3335) Jörg Dietrich

文档¶

将CLI API文档移动到相关页面 (GH#4980) James Bourbeau
将 to_datetime 函数添加到 dataframe API 文档 Matthew Rocklin
为 dask.array.ma.average 添加文档条目 (GH#4970) Bouwe Andela
将 bag.read_avro 添加到 bag API 文档 (GH#4969) James Bourbeau
修复拼写错误 (GH#4968) mbarkhau
文档: 放弃对 Python 2.7 的支持 (GH#4932) Hugo
移除修改变更日志的要求 (GH#4915) Matthew Rocklin
添加关于元列顺序的文档 (GH#4887) Tom Augspurger
在 DataFrame.shift 中添加文档注释 (GH#4886) Tom Augspurger
文档: 修正拼写错误 (GH#4868) Paweł Kordek
将“做/不做”放入延迟最佳实践文档的框中 (GH#3821) Martin Durant
文档修复 (GH#2528) Tom Augspurger
将 quansight 添加到付费支持文档部分 (GH#4838) Martin Durant
为自定义启动添加文档 (GH#4833) Matthew Rocklin
允许 utils.derive_from 接受函数，应用于数组 (GH#4804) Martin Durant
在最佳实践中添加“避免大分区”部分 (GH#4808) Matthew Rocklin
将 joblib 的 URL 更新为新的网站托管其文档 (GH#4816) Christian Hudon

1.2.2 / 2019-05-08¶

数组¶

澄清 regions kwarg 到 array.store (GH#4759) Martin Durant
将 dtype= 参数添加到 da.random.randint (GH#4753) Matthew Rocklin
在文档字符串中使用“行优先”而不是“C顺序”（GH#4452）`@asmith26`_
将 Xarray 数据集标准化为 Dask 数组 (GH#4756) Matthew Rocklin
在 da.histogram 中移除 normed 关键字 (GH#4755) Matthew Rocklin

包¶

向 Bag.distinct 添加键参数 (GH#4423) Daniel Severo

核心¶

添加核心 dask 配置文件 (GH#4774) Matthew Rocklin
将核心 dask 配置文件添加到 MANIFEST.in (GH#4780) James Bourbeau
启用HTTP文件系统的glob功能 (GH#3926) Martin Durant
HTTPFile.seek 使用 whence=1 (GH#4751) Martin Durant
移除配置键规范化 (GH#4742) Jim Crist

DataFrame¶

在 dask.dataframe.groupby 中移除对 Pandas 的显式引用 (GH#4778) Matthew Rocklin
在 DataFrame.groupby() 中添加对 group_keys kwarg 的支持 (GH#4771) Brian Chu
描述文档 (GH#4762) Martin Durant
在累积聚合中移除显式的 pandas 检查 (GH#4765) Nick Becker
为 read_json 和 test 添加了元数据 (GH#4588) Abhinav Ralhan
添加 dtype 转换的测试 (GH#4760) Martin Durant
在 map_partitions 中的文档对齐 (GH#4757) Jim Crist
实现 Series.str.split(expand=True) (GH#4744) Matthew Rocklin

文档¶

对 develop.rst 的调整，尝试运行测试 (GH#4772) Christian Hudon
添加描述计算阶段的文档 (GH#4766) Matthew Rocklin
在 Spark 文档中引导用户使用 Dask-Yarn (GH#4770) Matthew Rocklin
更新延迟文档中的图像以移除标签 (GH#4768) Martin Durant
解释 dask 数组的中间存储 (GH#4025) John A Kirkham
指定数组中的bash代码块最佳实践 (GH#4764) James Bourbeau
添加数组最佳实践文档 (GH#4705) Matthew Rocklin
更新优化文档，因为剔除操作不再是自动的 (GH#4752) Matthew Rocklin

1.2.1 / 2019-04-29¶

数组¶

修复带有 block_info 和广播的 map_blocks (GH#4737) Bruce Merry
在 da.bincount 中使 ‘minlength’ 关键字参数可选 (GH#4684) Genevieve Buckley
添加对没有数组参数的 map_blocks 的支持 (GH#4713) Bruce Merry
添加 dask.array.trace (GH#4717) Danilo Horta
为 cupy.ndarray 添加 sizeof 支持 (GH#4715) Peter Andreas Entschev
将 name kwarg 添加到 from_zarr (GH#4663) Michael Eaton
在 from_array 中添加 chunks=’auto’ (GH#4704) Matthew Rocklin
如果为 da.ones、zeros、empty 或 full 提供 dask 数组作为形状，则引发 TypeError (GH#4707) Genevieve Buckley
添加 TileDB 后端 (GH#4679) Isaiah Norton

核心¶

延迟长列表参数 (GH#4735) Matthew Rocklin
升级到 numpy >= 1.13, pandas >= 0.21.0 (GH#4720) Jim Crist
删除文件“test” (GH#4710) James Bourbeau
重新启用开发构建，使用上游库 (GH#4696) Peter Andreas Entschev
在 HighLevelGraph 构造函数中移除断言 (GH#4699) Matthew Rocklin

DataFrame¶

更改累积聚合的最后一个非空值算法 (GH#4736) Nick Becker
修复 series-groupby-apply (GH#4738) Jim Crist
重构 array.percentile 和 dataframe.quantile 以使用 t-digest (GH#4677) Janne Vuorela
允许对排序后的数据框进行简单拼接 (GH#4725) Matthew Rocklin
修复了 dd.Series.isin 中的性能问题 (GH#4727) Jim Crist
通过使用 methodcaller 移除硬 pandas 依赖以实现 melt (GH#4719) Nick Becker
一些数据框元数据修复 (GH#4695) Jim Crist
添加 Dataframe.replace (GH#4714) Matthew Rocklin
为 pd.DataFrame.dropna 添加 ‘threshold’ 参数 (GH#4625) Nathan Matare

文档¶

在文档字符串的早期添加关于派生文档字符串的警告 (GH#4716) Matthew Rocklin
创建数据框最佳实践文档 (GH#4703) Matthew Rocklin
取消注释 dask_sphinx_theme (GH#4728) James Bourbeau
修复了Queue/fire_and_forget示例中的小拼写错误 (GH#4709) Matthew Rocklin
更新 from_pandas 文档字符串以匹配签名 (GH#4698) James Bourbeau

1.2.0 / 2019-04-12¶

数组¶

修复了稀疏数组上的 mean() 和 moment() 方法 (GH#4525) Peter Andreas Entschev
添加对 NEP-18 的测试。(GH#4675) Hameer Abbasi
在 normalize_chunks 中允许 None 表示“不进行分块” (GH#4656) Matthew Rocklin
修复 auto_chunks 中的限制值 (GH#4645) Matthew Rocklin

核心¶

更新了与 bokeh>=1.1.0 兼容的诊断 bokeh 测试 (GH#4680) Philipp Rudiger
调整 codecov 的目标/阈值，禁用补丁 (GH#4671) Peter Andreas Entschev
始终从空的 http 缓冲区开始，而不是 None (GH#4673) Martin Durant

DataFrame¶

在从数组创建dask数据帧时传播索引数据类型和名称（GH#4686） Henrique Ribeiro
修复描述中分位数的顺序 (GH#4647) gregrf
清理并文档化 rearrange_column_by_tasks (GH#4674) Matthew Rocklin
标记一些 parquet 测试为 xfail (GH#4667) Peter Andreas Entschev
修复了与 arrow 0.13.0 相关的 parquet 问题 (GH#4668) Martin Durant
允许在从远程URL读取CSV时将样本设置为False (GH#4634) Ian Rose
修复在加载 parquet 文件时对时区元数据的推断 (GH#4655) Martin Durant
在 dd.utils 中使用 is_dataframe/index_like (GH#4657) Matthew Rocklin
在 groupby sum 方法中添加 min_count 参数 (GH#4648) Henrique Ribeiro
正确处理未排序的分位数 (GH#4650) gregrf

文档¶

添加延迟的额外依赖项以安装文档 (GH#4660) James Bourbeau

1.1.5 / 2019-03-29¶

数组¶

确保我们在 normalize_chunks 中使用 dtype 关键字 (GH#4646) Matthew Rocklin

核心¶

在 LocalFileSystem 中使用递归 glob (GH#4186) Brett Naul
避免 YAML 弃用 (GH#4603)
修复CI并添加 set -e (GH#4605) James Bourbeau
在 dask.visualize 中支持内置序列类型 (GH#4602)
解包/重新打包有序字典 (GH#4623) Justin Poehnelt
将 da.random.randint 添加到 API 文档 (GH#4628) James Bourbeau
将 zarr 添加到 CI 环境 (GH#4604) James Bourbeau
启用 codecov (GH#4631) Peter Andreas Entschev

DataFrame¶

支持设置索引 (GH#4565)
DataFrame.itertuples 接受 index, name kwargs (GH#4593) Dan O’Donovan
在 dd.Series.unique 中支持非 Pandas 系列 (GH#4599) Benjamin Zaitlen
使用 ._is_partition_type 谓词替换显式类型检查 (GH#4533)
在测试中移除额外的 pandas 警告 (GH#4576)
检查对象的 name/dtype 属性而不是类型 (GH#4606)
修复与 pd.Series 的比较 (GH#4613) amerkel2
修复将分类代码设置为浮点数时产生的警告 (GH#4624) Julia Signell
修复索引 to_frame 方法的重命名 (GH#4498) Henrique Ribeiro
修复合并两个单分区数据帧时的分割问题 (GH#4636) Justin Waugh
如果在 compute_divisions 中分区重叠，则发出警告 (GH#4600) Brian Chu
提供信息性元警告 (GH#4637) Matthew Rocklin
在 Series.__getitem__ 中添加信息性错误消息 (GH#4638) Matthew Rocklin
在使用 read_csv 时，当使用 index 或 index_col 时添加清晰的异常信息 (GH#4651) Álvaro Abella Bascarán

文档¶

为自定义分组聚合添加文档 (GH#4571)
文档数据框连接 (GH#4569)
指定基于分支的贡献 (GH#4619) James Bourbeau
在文档中修正 to_parquet 示例 (GH#4641) Aaron Fowles
更新并保护多个引用 (GH#4649) Søren Fuglede Jørgensen

1.1.4 / 2019-03-08¶

数组¶

在压缩中使用掩码选择 (GH#4548) John A Kirkham
在 extract 中使用 asarray (GH#4549) John A Kirkham
在测试连接时使用正确的数据类型。(GH#4539) Elliott Sales de Andrade
修复 CuPy 测试或正确标记为 xfail (GH#4564) Peter Andreas Entschev

核心¶

修复本地调度器回调以处理自定义缓存 (GH#4542) Yu Feng
在 read_bytes(sample=…) 中使用 parse_bytes (GH#4554) Matthew Rocklin

DataFrame¶

修复对象类型键上的groupby标准差问题 (GH#4541) Matthew Rocklin
TST/CI: 更新 pandas 0.24.1 (GH#4551) Tom Augspurger
添加控制时间序列中唯一元素数量的能力（GH#4557）`Matthew Rocklin`_
在 read_csv 中添加对参数 skiprows 支持其他可迭代对象 (GH#4560) @JulianWgs

文档¶

DataFrame 到数组转换及未知块 (GH#4516) Scott Sievert
为随机数组创建添加文档 (GH#4566) Matthew Rocklin
修复文档字符串中的拼写错误 (GH#4572) Shyam Saladi

1.1.3 / 2019-03-01¶

数组¶

修改均值块函数以返回字典而非数组 (GH#4513) Matthew Rocklin
在CI中更改稀疏安装以兼容NumPy/Python2 (GH#4537) Matthew Rocklin

DataFrame¶

在 pandas/其他数据框类型上使合并可分派 (GH#4522) Matthew Rocklin
read_sql_table - 日期时间索引修复和索引类型检查 (GH#4474) Joe Corbett
使用通用的索引检查形式 (is_index_like) (GH#4531) Benjamin Zaitlen
为对象类型的groupby归约添加测试 (GH#4535) Matthew Rocklin
修复 #4467 : 更新了因 pandas 弃用而受影响的 time_series (GH#4530) @HSR05

文档¶

在文档索引中添加缺失的方法 (GH#4528) Bart Broere

1.1.2 / 2019-02-25¶

数组¶

修复了 normalize_array 中的另一个 unicode/混合类型边缘情况 (GH#4489) Marco Neumann
添加 dask.array.diagonal (GH#4431) Danilo Horta
在 unify_chunks 中调用 asanyarray (GH#4506) Jim Crist
修改 moment chunk 函数以返回字典 (GH#4519) Peter Andreas Entschev

包¶

不要在 dask.bag 中内联输出键 (GH#4464) Jim Crist
确保 bag.from_sequence 总是包含至少一个分区 (GH#4475) Anderson Banihirwe
为 bag.fold 实现 out_type (GH#4502) Matthew Rocklin
从包键名中移除映射 (GH#4500) Matthew Rocklin
避免在 map_partitions 中使用 itertools.repeat (GH#4507) Matthew Rocklin

DataFrame¶

在使用 fastparquet 时修复 Windows 上的相对路径解析 (GH#4445) Janne Vuorela
修复了 pyarrow 和 hdfs 中的错误 (GH#4453) (GH#4455) Michał Jastrzębski
df getitem 使用整数切片尚未实现 (GH#4466) Jim Crist
将特定于cudf的代码替换为dask-cudf导入 (GH#4470) Matthew Rocklin
避免在 groupby-var 中使用 groupby.agg(callable) (GH#4482) Matthew Rocklin
在 check_meta 中将 uint 类型视为数值 (GH#4485) Marco Neumann
修复了groupby注释中的一些拼写错误 (GH#4494) Daniel Saxton
在 set_index(inplace=True) 周围添加错误消息 (GH#4501) Matthew Rocklin
meta_nonempty 适用于分类索引 (GH#4505) Jim Crist
将模块名称添加到预期的元错误消息中 (GH#4499) Matthew Rocklin
groupby-nunique 在空块上工作 (GH#4504) Jim Crist
如果未指定，则传播索引元数据 (GH#4509) Jim Crist

文档¶

更新文档以使用 from_zarr (GH#4472) John A Kirkham
DOC: 为远程数据服务添加使用其他 S3 兼容服务部分 (GH#4405) Aploium
修复变更日志中的节标题级别 (GH#4483) Bruce Merry
为 pip install 添加引号 [跳过 CI] (GH#4508) James Bourbeau

核心¶

在状态初始化后扩展 started_cbs (GH#4460) Marco Neumann
修复了HTTPFile._fetch_range中的错误，并添加了headers (GH#4479) (GH#4480) Ross Petchler
重复优化 diamond fusion 的 optimize_blockwise (GH#4492) Matthew Rocklin

1.1.1 / 2019-01-31¶

数组¶

添加对 cupy.einsum 的支持 (GH#4402) Johnnie Gray
在chunks关键词中提供字节大小 (GH#4434) Adam Beberg
为直方图的箱子和范围引发更详细的错误 (GH#4430) James Bourbeau

DataFrame¶

延迟注册更多 cudf 函数并移至后端文件 (GH#4396) Matthew Rocklin
修复 pyarrow 0.12.0 的 ORC 测试 (GH#4413) Jim Crist
rearrange_by_column: 确保在 dask.config 中，如果 shuffle 参数为 None，则默认值为 ‘disk’ (GH#4414) George Sakkis
为 _read_pyarrow 实现过滤器 (GH#4415) George Sakkis
避免在 is_dataframe_like 中检查类型 (GH#4418) Matthew Rocklin
使用 pyarrow 时，将用户名作为 ‘user’ 传递 (GH#4438) Roma Sokolov

延迟¶

修复 DelayedAttr 返回值 (GH#4440) Matthew Rocklin

文档¶

使用SVG作为管道图形 (GH#4406) John A Kirkham
将 doctest-modules 添加到 py.test 文档 (GH#4427) Daniel Severo

核心¶

解决 psutil 5.5.0 不允许对 Process 对象进行序列化的问题 Janne Vuorela

1.1.0 / 2019-01-18¶

数组¶

修复当存在掩码数组时的平均函数 (GH#4236) Damien Garaud
为 hstack 和 vstack 添加 allow_unknown_chunksizes (GH#4287) Paul Vecchio
修复 tensordot 在 27+ 维度的问题 (GH#4304) Johnnie Gray
修复了带有轴的 block_info。（GH#4301） Tom Augspurger
使用 safe_wraps 进行 matmul (GH#4346) Mark Harfouche
在数组创建例程中使用 chunks=”auto” (GH#4354) Matthew Rocklin
修复 dask.array.Array.__array_ufunc__ 中的 np.matmul (GH#4363) Stephan Hoyer
COMPAT: 重新启用多字段复制->视图更改 (GH#4357) Diane Trout
在延迟对象上调用 np.dtype 有效 (GH#4387) Jim Crist
重构 normalize_array 以处理 numpy 数据 (GH#4312) Marco Neumann

DataFrame¶

为系列比较添加 fill_value 支持 (GH#4250) James Bourbeau
在 read_sql_table 中为空表添加模式名称 (GH#4268) Mina Farid
在 map_blocks 中调整对坏块的检查 (GH#4308) Tom Augspurger
添加 dask.dataframe.read_fwf (GH#4316) @slnguyen
在dask数据框中使用atop融合 (GH#4229) Matthew Rocklin
在 from_pandas 中使用 parallel_types() (GH#4331) Matthew Rocklin
将 DataFrame._repr_data 更改为方法 (GH#4330) Matthew Rocklin
为 Appveyor 安装 pyarrow fastparquet (GH#4338) Gábor Lipták
移除显式的 pandas 检查并提供 cudf 的延迟注册 (GH#4359) Matthew Rocklin
将 isinstance(…, pandas) 替换为 is_dataframe_like (GH#4375) Matthew Rocklin
增强：支持第三方 ExtensionArrays (GH#4379) Tom Augspurger
Pandas 0.24.0 兼容 (GH#4374) Tom Augspurger

文档¶

修复数组API文档中对’map_blocks’函数的链接 (GH#4258) David Hoese
在云文档中添加关于 Dask-Yarn 的段落 (GH#4260) Jim Crist
复制编辑文档 (GH#4267), (GH#4263), (GH#4262), (GH#4277), (GH#4271), (GH#4279), (GH#4265), (GH#4295), (GH#4293), (GH#4296), (GH#4302), (GH#4306), (GH#4318), (GH#4314), (GH#4309), (GH#4317), (GH#4326), (GH#4325), (GH#4322), (GH#4332), (GH#4333), Miguel Farrajota
修复代码示例中的拼写错误 (GH#4272) Daniel Li
文档: 更新 array-api.rst (GH#4259) (GH#4282) Prabakaran Kumaresshan
更新hpc文档 (GH#4266) Guillaume Eynard-Bontemps
文档：在文档中用 read_avro 替换 from_avro (GH#4313) Prabakaran Kumaresshan
在文档中移除对“get”调度器函数的引用 (GH#4350) Matthew Rocklin
修复文档字符串中的拼写错误 (GH#4376) Daniel Saxton
为 dask.dataframe.merge 添加了文档 (GH#4382) Jendrik Jördening

核心¶

避免在 dask.core.get 中递归 (GH#4219) Matthew Rocklin
从 pytest 的 setup.cfg 中移除冗余标志 (GH#4281) Matthew Rocklin
通过明确指定标记来支持 Pytest 4.0 (GH#4280) Takahiro Kojima
添加高级图表 (GH#4092) Matthew Rocklin
修复 SerializableLock 的锁定和获取方法 (GH#4294) Stephan Hoyer
在测试中将 boto3 固定到较早版本以避免 moto 冲突 (GH#4276) Martin Durant
在更新配置时将 None 视为缺失 (GH#4324) Matthew Rocklin
更新 Appveyor 至 Python 3.6 (GH#4337) Gábor Lipták
在 dask.dataframe/bytes/bag 中更自由地使用 parse_bytes (GH#4339) Matthew Rocklin
当缺少 cloudpickle 时添加更好的错误信息 (GH#4342) Mark Harfouche
在线程/多进程获取函数中支持 pool= 关键字参数 (GH#4351) Matthew Rocklin
允许在 config.update 中从任意映射进行更新，而不仅仅是字典。(GH#4356) Stuart Berg
将 dask/array/top.py 代码移至 dask/blockwise.py (GH#4348) Matthew Rocklin
添加 has_parallel_type (GH#4395) Matthew Rocklin
CI: 更新 Appveyor (GH#4381) Tom Augspurger
忽略不可读的配置文件 (GH#4388) Jim Crist

1.0.0 / 2018-11-28¶

数组¶

添加 nancumsum/nancumprod 单元测试 (GH#4215) crusaderky

DataFrame¶

在 to_dask_dataframe 文档字符串中添加索引 (GH#4232) James Bourbeau
使用 fastparquet 追加分类数据时修复 (GH#4245) Martin Durant
在将 ParquetFile 传递给 read_parquet 时不要重新读取元数据 (GH#4247) Martin Durant

文档¶

复制编辑文档 (GH#4222) (GH#4224) (GH#4228) (GH#4231) (GH#4230) (GH#4234) (GH#4235) (GH#4254) Miguel Farrajota
更新了新调度器关键字的文档 (GH#4251) @milesial

核心¶

避免一些警告 (GH#4223) Matthew Rocklin
移除 dask.store 模块 (GH#4221) Matthew Rocklin
移除 AUTHORS.md Jim Crist

0.20.2 / 2018-11-15¶

数组¶

避免在顶部归约中融合依赖 (GH#4207) Matthew Rocklin

数据框¶

改进数据框相关性的内存占用 (GH#4193) Damien Garaud
在 boundary_slice 中添加空 DataFrame 检查 (GH#4212) James Bourbeau

文档¶

复制编辑文档 (GH#4197) (GH#4204) (GH#4198) (GH#4199) (GH#4200) (GH#4202) (GH#4209) Miguel Farrajota
添加统计模块命名空间 (GH#4206) James Bourbeau
修复数据框文档中的链接 (GH#4208) James Bourbeau

0.20.1 / 2018-11-09¶

数组¶

仅在 wrapped_pad_func (GH#4153) John A Kirkham 中分配结果空间
将 expand_pad_width 泛化为 expand_pad_value (GH#4150) John A Kirkham
使用2D linear_ramp案例测试da.pad (GH#4162) John A Kirkham
修复 broadcast_to 的导入。(GH#4168) samc0de
重写 Dask Array 的 pad 以仅添加新块 (GH#4152) John A Kirkham
验证 atop 的索引输入 (GH#4182) Matthew Rocklin

核心¶

Dask.config 设置和获取规范化下划线和连字符 (GH#4143) James Bourbeau
仅限核心集合的子集，不包括子类 (GH#4159) Matthew Rocklin
为 HTTPFileSystem 添加 block_size=0 选项。(GH#4171) Martin Durant
为数据类添加遍历支持 (GH#4165) Armin Berres
避免在没有依赖关系的共享字典上进行优化 (GH#4181) Matthew Rocklin
更新 TravisCI 的 pytest 版本 (GH#4189) Damien Garaud
在可视化名称中使用 key_split 而不是 funcname (GH#4160) Matthew Rocklin

数据框¶

为 DataFrame.__setitem__ 添加索引修复 (GH#4151) Anderson Banihirwe
修复在传递文件列表给 fastparquet 时的列选择 (GH#4174) Martin Durant
从 read_sql_table 传递 engine_kwargs 到 sqlalchemy (GH#4187) Damien Garaud

文档¶

修复延迟最佳实践示例中的文档，该示例返回了一个空列表 (GH#4147) Jonathan Fraine
复制编辑文档 (GH#4164) (GH#4175) (GH#4185) (GH#4192) (GH#4191) (GH#4190) (GH#4180) Miguel Farrajota
修复文档字符串中的拼写错误 (GH#4183) Carlos Valiente

0.20.0 / 2018-10-26¶

数组¶

Fuse Atop 操作 (GH#3998), (GH#4081) Matthew Rocklin
支持在 dask 数据帧上使用 da.asanyarray (GH#4080) Matthew Rocklin
在日期时间测试中移除不必要的字节序检查 (GH#4113) Elliott Sales de Andrade
在数组 foo_like 函数中设置 name=False (GH#4116) Matthew Rocklin
移除 dask.array.ghost 模块 (GH#4121) Matthew Rocklin
修复 dask 数组中 getargspec 的使用 (GH#4125) Stephan Hoyer
添加了 dask.array.invert (GH#4127), (GH#4131) Anderson Banihirwe
在未知chunksize上进行arg-reduction时引发信息性错误（GH#4128），（GH#4135） Matthew Rocklin
在 dask 数组中规范化反转切片 (GH#4126) Matthew Rocklin

包¶

添加 bag.to_avro (GH#4076) Martin Durant

核心¶

从 config.get 中提取 num_workers (GH#4086), (GH#4093) James Bourbeau
使用原始字符串修复无效的转义序列 (GH#4112) Elliott Sales de Andrade
在使用 get= 关键字和 set_options 时引发错误 (GH#4077) Matthew Rocklin
添加 Azure DataLake 存储的导入，并添加文档 (GH#4132) Martin Durant
避免使用 collections.Mapping/Sequence (GH#4138) Matthew Rocklin

数据框¶

在 to_dask_dataframe 中包含索引关键字 (GH#4071) Matthew Rocklin
添加对重复列名的支持 (GH#4087) Jan Koch
为 DataFrame 方法 sum 和 prod 实现 min_count (GH#4090) Bart Broere
在连接中移除 pandas 警告 (GH#4095) Matthew Rocklin
DataFrame.to_csv 的 header 选项，仅在第一个块中输出标题 (GH#3909) Rahul Vaidya
移除 Series.to_parquet (GH#4104) Justin Dennison
避免警告和弃用的pandas方法 (GH#4115) Matthew Rocklin
在报告追加错误时交换 ‘old’ 和 ‘previous’ (GH#4130) Martin Durant

文档¶

复制编辑文档 (GH#4073), (GH#4074), (GH#4094), (GH#4097), (GH#4107), (GH#4124), (GH#4133), (GH#4139) Miguel Farrajota
修复代码示例中的拼写错误 (GH#4089) Antonino Ingargiola
添加 pycon 2018 演示文稿 (GH#4102) Javad
gcsfs 的快速描述 (GH#4109) Martin Durant
修复了 read_sql_table 方法文档字符串中的拼写错误 (GH#4114) TakaakiFuruse
如果目标目录在重定向中不存在，则创建它们 (GH#4136) Matthew Rocklin

0.19.4 / 2018-10-09¶

数组¶

实现 apply_gufunc(..., axes=..., keepdims=...) (GH#3985) Markus Gonser

包¶

修复了 datasets.make_people 中的拼写错误 (GH#4069) Matthew Rocklin

数据框¶

为 dask.dataframe.describe 方法添加了 percentiles 选项 (GH#4067) Zhenqing Li
添加类似于 Array.blocks 的 DataFrame.partitions 访问器 (GH#4066) Matthew Rocklin

核心¶

通过调度器的关键词传递获取函数和客户端 (GH#4062) Matthew Rocklin

文档¶

修复hpc示例中的拼写错误。（kwarg中缺少`=`）。(GH#4068) Matthias Bussonier
广泛的校对：(GH#4065)，(GH#4064)，(GH#4063) Miguel Farrajota

0.19.3 / 2018-10-05¶

数组¶

使 da.RandomState 可扩展到其他模块 (GH#4041) Matthew Rocklin
在ravel无操作情况下支持未知维度 (GH#4055) Jim Crist
为 cupy 添加基础架构 (GH#4019) Matthew Rocklin
避免使用 asarray 并为 from_array(getitem) 锁定参数 (GH#4044) Matthew Rocklin
将 corrcoef 中的本地导入移至全局导入 (GH#4030) John A Kirkham
将本地 indices 导入移至全局导入 (GH#4029) John A Kirkham
修复 Dask Array 的 fromfunction 关于 dtype 和 kwargs 的问题 (GH#4028) John A Kirkham
不要在重叠的 GH#3964 中使用 trim_internal 的虚拟扩展 Mark Harfouche
添加 unravel_index (GH#3958) John A Kirkham

包¶

在 Bag.frequencies 中排序结果 (GH#4033) Matthew Rocklin
在 groupby 中添加对 npartitions=1 边缘情况的支持 (GH#4050) James Bourbeau
为人们添加新的随机数据集 (GH#4018) Matthew Rocklin
改进小文件上 bag.read_text 的性能 (GH#4013) Eric Wolak
添加 bag.read_avro (GH#4000) (GH#4007) Martin Durant

数据框¶

为 dask.dataframe.from_dask_array() 添加了 index 参数，用于从具有给定索引的 dask 数组创建 dask DataFrame。(GH#3991) Tom Augspurger
改进 dask 数据帧的子类化 (GH#4015) Matthew Rocklin
修复失败的hdfs测试 [test-hdfs] (GH#4046) Jim Crist
fuse_subgraphs 在无常规融合的情况下工作 (GH#4042) Jim Crist
为读取多个parquet文件而不进行预扫描创建路径（GH#3978） Martin Durant
在 dd.from_dask_array 中添加索引 (GH#3991) Tom Augspurger
使 skiprows 接受列表 (GH#3975) Julia Signell
在 fastparquet 读取中对不存在的列尽早失败 (GH#3989) Martin Durant

核心¶

在 groupby 中添加对 npartitions=1 边缘情况的支持 (GH#4050) James Bourbeau
在 map_blocks/partitions 中自动使用 dask.delayed 包装大参数 (GH#4002) Matthew Rocklin
融合子图的线性链 (GH#3979) Jim Crist
使多进程上下文可配置 (GH#3763) Itamar Turner-Trauring

文档¶

广泛的校对工作 (GH#4049), (GH#4034), (GH#4031), (GH#4020), (GH#4021), (GH#4022), (GH#4023), (GH#4016), (GH#4017), (GH#4010), (GH#3997), (GH#3996), Miguel Farrajota
更新洗牌方法选择文档 (GH#4048) James Bourbeau
移除 docs/source/examples，指向 examples.dask.org (GH#4014) Matthew Rocklin
将readthedocs链接替换为dask.org (GH#4008) Matthew Rocklin
更新 DataFrame.to_hdf 文档字符串以包含返回值 (GH#3992) James Bourbeau

0.19.2 / 2018-09-17¶

数组¶

apply_gufunc 实现了函数输出 dtypes 的自动推断 (GH#3936) Markus Gonser
修复数组直方图范围错误当数组包含nans (GH#3980) James Bourbeau
问题 3937 跟进，整数类型检查。(GH#3956) Yu Feng
from_array: 添加 @martindurant 对数组哈希处理方式的解释。(GH#3965) Mark Harfouche
支持坐标梯度 (GH#3949) Keisuke Fujii

核心¶

修复在 Python 2.7 中使用 has_keyword 和 partial 的问题 (GH#3966) Mark Harfouche
将 pyarrow 设置为 HDFS 的默认值 (GH#3957) Matthew Rocklin

文档¶

使用 dask_sphinx_theme (GH#3963) Matthew Rocklin
在主页 Matthew Rocklin 的 Binder 链接中使用 JupyterLab
文档：修复了Sphinx语法 (GH#3960) Tom Augspurger

0.19.1 / 2018-09-06¶

数组¶

如果结果没有 dtype，则不强制执行 dtype (GH#3928) Matthew Rocklin
修复 NumPy issubtype 弃用警告 (GH#3939) Bruce Merry
修复参数缩减令牌以使其在不同参数下唯一 (GH#3955) Tobias de Jong
在切片代码中强制将numpy整数转换为整数 (GH#3944) Yu Feng
Linalg.norm ndim 沿轴部分修复 (GH#3933) Tobias de Jong

数据框¶

确定性 DataFrame.set_index (GH#3867) George Sakkis
修复在处理过滤器时 read_parquet 中的除法问题 #3831 #3930 (GH#3923) (GH#3931) @andrethrill
修复 categorical.as_known 中的返回类型 (GH#3888) Sriharsha Hatwar
修复 DataFrame.assign 以支持可调用对象 (GH#3919) Tom Augspurger
在重新分区中包含无宽度的分区 (GH#3941) Matthew Rocklin
不要在数据框洗牌中限制 stage/k 的 dtype (GH#3942) Matthew Rocklin

文档¶

文档：添加如何水平渲染任务图的提示 (GH#3922) Uwe Korn
在主登录页添加“立即试用”按钮 (GH#3924) Matthew Rocklin

0.19.0 / 2018-08-29¶

数组¶

支持梯度中的坐标 (GH#3949) Keisuke Fujii
修复 argtopk split_every 错误 (GH#3810) crusaderky
确保 dask.array.isnull() 的计算结果始终为 numpy 数组 (GH#3825) Stephan Hoyer
在 dask 数组中支持 scipy.sparse 的连接 (GH#3836) Matthew Rocklin
修复32位系统上的argtopk。(GH#3823) Elliott Sales de Andrade
在 rechunk 中规范化键 (GH#3820) Matthew Rocklin
允许 dask.array 的形状为 numpy 数组 (GH#3844) Mark Harfouche
修复numpy元组索引的弃用警告 (GH#3851) Tobias de Jong
将 ghost 模块重命名为 overlap (GH#3830) Robert Sare
重新添加幽灵导入到 da __init__ (GH#3861) Jim Crist
确保复制保留掩码数组 (GH#3852) Tobias de Jong

DataFrame¶

在 dask.dataframe.get_dummies() 中添加了 dtype 和 sparse 关键字 (GH#3792) Tom Augspurger
添加了 dask.dataframe.to_dask_array() 用于将 Dask Series 或 DataFrame 转换为 Dask Array，可能带有已知的块大小 (GH#3884) Tom Augspurger
更改了 dask.array.asarray() 对于 dask dataframe 和 series 输入的行为。以前，在创建具有已知块大小的 dask 数组之前，series 会被急切地转换为内存中的 NumPy 数组。这导致了意料之外的高内存使用。现在，不会创建中间的 NumPy 数组，而是返回一个块大小未知的 Dask 数组 (GH#3884) Tom Augspurger
DataFrame.iloc (GH#3805) Tom Augspurger
在读取多个路径时，展开通配符。(GH#3828) Irina Truong
在重采样后添加索引列名称 (GH#3833) Eric Bonfadini
将（延迟）形状属性添加到数据框和系列 (GH#3212) Henrique Ribeiro
修复失败的hdfs测试 [test-hdfs] (GH#3858) Jim Crist
pyarrow 0.10.0 版本的修复 (GH#3860) Jim Crist
为诊断重命名 to_csv 键 (GH#3890) Matthew Rocklin
匹配 pandas 的 concat 排序警告 (GH#3897) Tom Augspurger
在 read_csv 中包含文件名 (GH#3908) Julia Signell

核心¶

在缺少常见依赖项时导入时提供更好的错误消息 (GH#3771) Danilo Horta
放弃对 Python 3.4 的支持 (GH#3840) Jim Crist
移除过期的弃用警告 (GH#3841) Jim Crist
添加 DASK_ROOT_CONFIG 环境变量 (GH#3849) Joe Hamman
不要在本地调度器中剔除，在延迟中剔除 (GH#3856) Jim Crist
增加 conda 下载重试次数 (GH#3857) Jim Crist
添加 python_requires 和 Trove 分类器 (GH#3855) @hugovk
修复 Python 3.7.0 中的 collections.abc 弃用警告 (GH#3876) Jan Margeta
允许在可视化测试中对 dot jpeg 进行 xfail 处理 (GH#3896) Matthew Rocklin
将 Python 3.7 添加到 travis.yml (GH#3894) Matthew Rocklin
在 dask.config 中添加 expand_environment_variables (GH#3893) Joe Hamman

文档¶

修复诊断导入语句中的拼写错误 (GH#3826) John Mrziglod
添加到 YARN 文档的链接 (GH#3838) Jim Crist
修复了着陆页 index.html 中的小拼写错误 (GH#3746) Christoph Moehl
更新 delayed-custom.rst (GH#3850) Anderson Banihirwe
文档：澄清延迟的文档字符串 (GH#3709) Scott Sievert
添加新演示文稿 (GH#3880) Javad
将 dask 数组 normalize_chunks 添加到文档中 (GH#3878) Daniel Rothenberg
文档：修复指向 snakeviz 的链接 (GH#3900) Hans Moritz Günther
在文档字符串中添加缺失的 ` (GH#3915) @rtobar

0.18.2 / 2018-07-23¶

数组¶

重新实现了 argtopk 以释放 GIL (GH#3610) crusaderky
在 map_overlap 中不要在非重叠维度上重叠 (GH#3653) Matthew Rocklin
修复 linalg.tsqr 以适应不确定长度的维度 (GH#3662) Jeremy Chen
将不均匀的整数数组切片拆分为单独的块 (GH#3648) Matthew Rocklin
将自动块对齐到提供的块，而不是形状 (GH#3679) Matthew Rocklin
为 linspace 添加了 endpoint 和 retstep 支持 (GH#3675) James Bourbeau
实现 .blocks 访问器 (GH#3689) Matthew Rocklin
向 map_blocks 函数添加 block_info 关键字 (GH#3686) Matthew Rocklin
按 dask 整数数组切片 (GH#3407) crusaderky
在 arange 中支持 dtype (GH#3722) crusaderky
修复 argtopk 在不等块上的问题 (GH#3720) crusaderky
在 da.choice 中当 replace=False 时引发错误 (GH#3765) James Bourbeau
在 Array.__setitem__ 中更新块 (GH#3767) Itamar Turner-Trauring
添加一个 chunksize 便捷属性 (GH#3777) Jacob Tomlinson
修复并简化当 step < 0 时的数组切片行为 (GH#3702) Ziyao Wei
确保 to_zarr 在 return_stored 为 True 时返回一个 Dask 数组 (GH#3786) John A Kirkham

包¶

在 to_textfiles 中添加 last_endline 可选参数 (GH#3745) George Sakkis

数据框¶

为滚动对象添加聚合函数 (GH#3772) Gerome Pistre
正确地标记累积的 groupby 聚合 (GH#3799) Cloves Almeida

延迟¶

将 @ 运算符添加到延迟对象中 (GH#3691) Mark Harfouche
将延迟的最佳实践添加到文档中 (GH#3737) Matthew Rocklin
修复 @delayed 装饰器用于方法并添加测试 (GH#3757) Ziyao Wei

核心¶

修复额外的进度条 (GH#3669) Mike Neish
如果任务有一个依赖项，则允许将其重新放回排序堆栈 (GH#3652) Matthew Rocklin
在排序时，优先选择依赖项数量较少的末端任务（GH#3588） Tom Augspurger
在顶级模块中添加 assert_eq (GH#3726) Matthew Rocklin
测试 dask 集合可以持有 scipy.sparse 数组 (GH#3738) Matthew Rocklin
修复 lz4 解压缩函数的设置 (GH#3782) Elliott Sales de Andrade
添加数据集模块 (GH#3780) Matthew Rocklin

0.18.1 / 2018-06-22¶

数组¶

from_array 现在支持标量类型和嵌套的列表/元组作为输入，就像所有 numpy 函数一样；当输入是普通的 ndarray 时，它还会生成一个更简单的图（GH#3568）`crusaderky`_
修复由于 cumsum 数据类型错误导致的大数组切片问题 (GH#3620) Marco Rossi
添加 Dask 数组的 pad 实现 (GH#3578) John A Kirkham
修复数组随机API示例 (GH#3625) James Bourbeau
将平均函数添加到 dask 数组 (GH#3640) James Bourbeau
使用轴对 ghost_internal 进行分词 (GH#3643) Matthew Rocklin
为 Dask 数组添加外部功能 (GH#3658) John A Kirkham

DataFrame¶

添加 Index.to_series 方法 (GH#3613) Henrique Ribeiro
修复 pyarrow-parquet 中缺失的分区列 (GH#3636) Martin Durant

核心¶

对CI的小调整 (GH#3629) crusaderky
添加回 dask.utils.effective_get (GH#3642) Matthew Rocklin
DASK_CONFIG 决定配置写入位置 (GH#3621) Jim Crist
在 unpack_collections 中用唯一键替换 ‘collections’ 键 (GH#3632) Yu Feng
避免在 dask.config.set 中使用 deepcopy (GH#3649) Matthew Rocklin

0.18.0 / 2018-06-14¶

数组¶

为 Zarr 格式数据集和数组添加 to/from_zarr 方法 (GH#3460) Martin Durant
实验性添加广义ufunc支持，apply_gufunc，gufunc，和``as_gufunc`` (GH#3109) (GH#3526) (GH#3539) Markus Gonser
避免不必要的重新分块任务 (GH#3529) Matthew Rocklin
在运行时计算fft的dtypes (GH#3511) Matthew Rocklin
为所有 da.store 操作生成 UUID (GH#3540) Martin Durant
Dask的SVD的正确内部维度 (GH#3517) John A Kirkham
BUG: 在数组的 vindex 中，不要为身份切片引发 IndexError (GH#3559) Scott Sievert
添加了 isneginf 和 isposinf (GH#3581) John A Kirkham
删除 Dask Array 的 learn 模块 (GH#3580) John A Kirkham
添加了 sfqr（短而胖）作为 tsqr 的对应物… (GH#3575) Jeremy Chen
在 dask.array.rechunk 中允许 0 宽度的块 (GH#3591) Marc Pfister
在公共API中记录Dask数组的`nan_to_num` (GH#3599) John A Kirkham
显示块示例 (GH#3601) John A Kirkham
在 map_blocks 中将 token= 关键字替换为 name= (GH#3597) Matthew Rocklin
在 to_zarr 中禁用锁定（在分布式环境中使用 to_zarr 时需要）(GH#3607) John A Kirkham
在 to_zarr/from_zarr 中支持 Zarr 数组 (GH#3561) John A Kirkham
在 array/linalg/tsqr 中添加了递归，以更好地管理单核瓶颈 (GH#3586) Jeremy Chan (GH#3396) crusaderky

数据框¶

添加到/read_json (GH#3494) Martin Durant
为 DataFrame.rename 方法的未支持参数添加 index (GH#3522) James Bourbeau
添加了对使用 numpy.ndarray、pandas.Series 和 pandas.Index 对象对 Dask DataFrame 列进行子集化的支持 (GH#3536) James Bourbeau
如果元列与数据框不匹配，则引发错误 (GH#3485) Christopher Ren
为 DataFrame.rename 添加对不支持参数的索引 (GH#3522) James Bourbeau
添加了对使用 pandas Index/Series 和 numpy ndarrays 对 DataFrame 进行子集化的支持 (GH#3536) James Bourbeau
数据框样本方法文档字符串修复 (GH#3566) James Bourbeau
修复了 dd.read_json 以推断文件压缩 (GH#3594) Matt Lee
添加 n 到示例方法 (GH#3606) James Bourbeau
添加 fastparquet ParquetFile 对象支持 (GH#3573) @andrethrill

包¶

将 bag.groupby 中的 method= 关键字重命名为 shuffle= (GH#3470) Matthew Rocklin

核心¶

将 get= 关键字替换为 scheduler= 关键字 (GH#3448) Matthew Rocklin
添加集中化的 dask.config 模块以处理所有 Dask 子项目的配置 (GH#3432) (GH#3513) (GH#3520) Matthew Rocklin
添加 dask-ssh CLI 选项和描述。(GH#3476) @beomi
读取整个文件修复，无论HTTP的头部如何 (GH#3496) Martin Durant
在调试文档中添加同步调度器语法 (GH#3509) James Bourbeau
用 dask.config.set 替换 dask.set_options (GH#3502) Matthew Rocklin
更新 sphinx readthedocs 主题 (GH#3516) Matthew Rocklin
为 normalize_chunks 引入“auto”值 (GH#3507) Matthew Rocklin
在配置中修复 env=None 的检查 (GH#3562) Simon Perkins
更新 sizeof 定义 (GH#3582) Matthew Rocklin
从 travis-ci 中移除 –verbose 标志 (GH#3477) Matthew Rocklin
从随机数组键中移除 “da.random” (GH#3604) Matthew Rocklin

0.17.5 / 2018-05-16¶

数组¶

修复字典中chunksize为-1时的``rechunk`` (GH#3469) Stephan Hoyer
einsum 现在接受 split_every 参数 (GH#3471) crusaderky
改进切片性能 (GH#3479) Yu Feng

DataFrame¶

与 pandas 0.23.0 的兼容性 (GH#3499) Tom Augspurger

0.17.4 / 2018-05-03¶

数据框¶

添加对使用字符串子类索引 Dask DataFrames 的支持 (GH#3461) James Bourbeau
允许在 read_hdf 中同时使用 sorted_index 和 chunksize (GH#3463) Pierre Bartet
将文件系统传递给箭头片段读取器 (GH#3466) Martin Durant
切换到使用 dask.compat 的 string_types (GH#3462) James Bourbeau

0.17.3 / 2018-05-02¶

数组¶

为 Dask 数组添加 einsum (GH#3412) Simon Perkins
为 Dask 数组添加 piecewise (GH#3350) John A Kirkham
修复 broadcast_shapes 中 nan 的处理 (GH#3356) John A Kirkham
为 dask 数组添加 isin (GH#3363)。Stephan Hoyer
对 Dask 数组的 topk 进行了全面改进：更快的算法，特别是对于较大的 k 值；增加了对多轴、递归聚合的支持，并添加了一个选项以选择最小的 k 个元素。(GH#3395) crusaderky
topk API 已从 topk(k, array) 更改为更常规的 topk(array, k)。旧版 API 仍然有效，但现已弃用。(GH#2965) crusaderky
Dask Arrays 的新函数 argtopk (GH#3396) crusaderky
修复 map_overlap 中部分深度和边界的处理 (GH#3445) John A Kirkham
为 Dask 数组添加 gradient (GH#3434) John A Kirkham

DataFrame¶

在 to_hdf 中允许使用 t 作为 table 的简写以兼容 pandas (GH#3330) Jörg Dietrich
为 Dask DataFrame 添加了顶层 isna 方法 (GH#3294) Christopher Ren
修复了在 engine="pyarrow" 下 read_parquet 时分区列的选择问题 (GH#3207) Uwe Korn
添加了 DataFrame.squeeze 方法 (GH#3366) Christopher Ren
在 read_parquet 中添加了 infer_divisions 选项，以指定读取引擎是否应计算分区 (GH#3387) Jon Mease
添加了对 engine="pyarrow" 进行除法推断的支持 (GH#3387) Jon Mease
为 meta= 错误提供更多信息性的错误消息 (GH#3343) Matthew Rocklin
添加orc读取器 (GH#3284) Martin Durant
现在，parquet 的默认压缩总是 Snappy，与 pandas 一致 (GH#3373) Martin Durant
修复了 Dask DataFrame 和 Series 与 NumPy 标量比较中的错误 (GH#3436) James Bourbeau
从repartition文档字符串中移除过时的要求 (GH#3440) Jörg Dietrich
修复了仅选择Series时的聚合错误 (GH#3446) Jörg Dietrich
为 make_timeseries 添加默认值 (GH#3421) Matthew Rocklin

核心¶

支持在持久化、可视化和优化中遍历集合 (GH#3410) Jim Crist
添加 schedule= 关键字以进行计算和持久化。这取代了常见的 get= 关键字用法 (GH#3448) Matthew Rocklin

0.17.2 / 2018-03-21¶

数组¶

为 Dask 数组添加 broadcast_arrays (GH#3217) John A Kirkham
添加 bitwise_* ufuncs (GH#3219) John A Kirkham
为 squeeze 添加可选的 axis 参数 (GH#3261) John A Kirkham
验证 atop 的输入 (GH#3307) Matthew Rocklin
如果在连接中所有部分具有相同的dtype，则避免调用astype (GH#3301) Martin Durant

DataFrame¶

修复了由于过度截断导致的shuffle错误 (GH#3201) Matthew Rocklin
支持在使用 engine="pyarrow" 时，通过 categories=[…] 在 read_parquet 中指定分类列 (GH#3177) Uwe Korn
添加 dd.tseries.Resampler.agg (GH#3202) Richard Postelnik
支持混合数据框和数组的操作 (GH#3230) Matthew Rocklin
在 dd.groupby._Groupby.apply 中支持额外的标量和延迟参数 (GH#3256) Gabriele Lanaro

包¶

支持对单分区包和延迟对象进行连接 (GH#3254) Matthew Rocklin

核心¶

修复了在使用意外但可哈希类型作为键时的错误 (GH#3238) Daniel Collins
修复任务排序中的错误，以便我们使用键名一致地打破平局 (GH#3271) Matthew Rocklin
当任务数量非常大时，避免按顺序排序任务（GH#3298）`Matthew Rocklin`_

0.17.1 / 2018-02-22¶

数组¶

修正了索引中的维度分块 (GH#3166, GH#3167) Simon Perkins
内联 store_chunk 调用 store 的 return_stored 选项 (GH#3153) John A Kirkham
NumPy 1.14.1 版本中与结构化数据类型的兼容性 (GH#3187) Matthew Rocklin

DataFrame¶

修复以允许 pandas 日期时间的列分配（GH#3164） Max Epstein

核心¶

新的HTTP(S)文件系统，允许从特定URL直接加载 (GH#3160) Martin Durant
修复在无关键词情况下对部分内容进行标记化时的错误 (GH#3191) Matthew Rocklin
使用更新的 LZ4 API (GH#3157) Thrasibule
为进度条引入输出流参数 (GH#3185) Dieter Weber

0.17.0 / 2018-02-09¶

数组¶

为 nansum、nanmin 和 nanmax 添加了支持对象类型数组 (GH#3133) Keisuke Fujii
更新当使用空块调用 len 时的错误处理 (GH#3058) Xander Johnson
修复了 store 的 return_stored 选项的元数据错误 (GH#3064) John A Kirkham
修复 optimization.fuse_slice 中的一个错误，以正确处理第一个输入为 None 的情况 (GH#3076) James Bourbeau
在百分位数中支持具有未知块大小的数组 (GH#3107) Matthew Rocklin
标记化 scipy.sparse 数组和 np.matrix (GH#3060) Roman Yurchak

DataFrame¶

在 repartition(freq=…) 中支持月份时间增量 (GH#3110) Matthew Rocklin
避免在 dataframe groupby 测试中进行变异 (GH#3118) Matthew Rocklin
read_csv、read_table 和 read_parquet 接受路径的可迭代对象 (GH#3124) Jim Crist
弃用 dd.to_delayed 函数，改为使用现有方法 (GH#3126) Jim Crist
当UDF返回一个numpy数组时，从df.map_partitions调用中返回dask.arrays (GH#3147) Matthew Rocklin
在 dd.read_parquet 中更改 columns 和 index 的处理方式，使其更加一致，特别是在处理多索引时 (GH#3149) Jim Crist
fastparquet append=True 允许创建新数据集 (GH#3097) Martin Durant
SQL查询的dtype合理化 (GH#3100) Martin Durant

包¶

文档 bag.map_paritions 函数可以接收列表或生成器。(GH#3150) Nir

核心¶

将默认任务排序更改为优先选择依赖者较少的节点，然后是下游依赖较多的节点 (GH#3056) Matthew Rocklin
添加 color= 选项到 visualize 以按任务顺序着色 (GH#3057) (GH#3122) Matthew Rocklin
弃用 dask.bytes.open_text_files (GH#3077) Jim Crist
移除由于维护成本而导致的短路hdfs读取处理。可能会以更健壮的方式在以后重新添加 (GH#3079) Jim Crist
添加 dask.base.optimize 以在不计算的情况下优化多个集合。(GH#3071) Jim Crist
将 dask.optimize 模块重命名为 dask.optimization (GH#3071) Jim Crist
更改任务排序以进行完整遍历 (GH#3066) Matthew Rocklin
在所有 to_delayed 方法中添加了一个 optimize_graph 关键字，以允许控制转换时是否进行优化。(GH#3126) Jim Crist
支持使用 pyarrow 进行 hdfs 集成 (GH#3123) Jim Crist
将 HDFS 集成和测试移入 dask 仓库 (GH#3083) Jim Crist
移除 write_bytes (GH#3116) Jim Crist

0.16.1 / 2018-01-09¶

数组¶

修复 percentile 中标量百分位值的处理 (GH#3021) James Bourbeau
防止 bool() 强制转换调用计算 (GH#2958) Albert DeFusco
添加 matmul (GH#2904) John A Kirkham
支持 matmul 的 N-D 数组 (GH#2909) John A Kirkham
添加 vdot (GH#2910) John A Kirkham
broadcast_to 的显式 chunks 参数 (GH#2943) Stephan Hoyer
添加 meshgrid (GH#2938) John A Kirkham 和 (GH#3001) Markus Gonser
在 fftshift/ifftshift 中保留单例块 (GH#2733) John A Kirkham
修复 vindex 中负索引的处理，并为越界索引引发错误 (GH#2967) Stephan Hoyer
添加 flip, flipud, fliplr (GH#2954) John A Kirkham
添加 float_power ufunc (GH#2962) (GH#2969) John A Kirkham
即将发布的 NumPy 1.14 版本中对结构化数组的更改的兼容性 (GH#2964) Tom Augspurger
添加 block (GH#2650) John A Kirkham
添加 frompyfunc (GH#3030) Jim Crist
为 store 添加 return_stored 选项以链接存储的结果 (GH#2980) John A Kirkham

DataFrame¶

修复了累积聚合中的命名错误 (GH#3037) Martijn Arts
修复了当 names 被指定但 header 未设置为 None 时 dd.read_csv 的问题 (GH#2976) Martijn Arts
修复了 dd.read_csv，使得在 dtype 中传递 CategoricalDtype 实例将导致已知的分类 (GH#2997) Tom Augspurger
防止 bool() 强制转换调用计算 (GH#2958) Albert DeFusco
DataFrame.read_sql() (GH#2928) 读取空数据库表返回一个空的dask数据框 Apostolos Vlachopoulos
读取由 PyArrow 0.8.0 写入的 Parquet 文件的兼容性 (GH#2973) Tom Augspurger
在读取 dd.read_parquet 时正确处理列名 (df.columns.name) (GH#2973) Tom Augspurger
修复了 dd.concat 在数据包含分类时丢失索引数据类型的问题 (GH#2932) Tom Augspurger
添加 dd.Series.rename (GH#3027) Jim Crist
DataFrame.merge() 现在支持在列和索引的组合上进行合并 (GH#2960) Jon Mease
移除了已弃用的 dd.rolling* 方法，为在下一个 pandas 版本中移除它们做准备 (GH#2995) Tom Augspurger
修复了单分区序列被错误特殊处理的元数据推断错误 (GH#3035) Jim Crist
添加对 Series.str.cat 的支持 (GH#3028) Jim Crist

核心¶

改进32位兼容性 (GH#2937) Matthew Rocklin
更改任务优先级以避免向上分支 (GH#3017) Matthew Rocklin

0.16.0 / 2017-11-17¶

这是一个重大发布。它包括破坏性变更、新协议以及大量错误修复。

数组¶

添加 atleast_1d、atleast_2d 和 atleast_3d (GH#2760) (GH#2765) John A Kirkham
添加 allclose (GH#2771) 由 John A Kirkham 完成
从 Dask 数组 API 文档中移除 random.different_seeds (GH#2772) John A Kirkham
弃用 vnorm ，改为使用 dask.array.linalg.norm (GH#2773) John A Kirkham
重新实现 unique 使其变得懒惰 (GH#2775) John A Kirkham
支持 Dask 数组的 0 长度维度广播 (GH#2784) John A Kirkham
将 asarray 和 asanyarray 添加到 Dask Array API 文档中 (GH#2787) James Bourbeau
支持 unique 的 return_* 参数 (GH#2779) John A Kirkham
简化 _unique_internal (GH#2850) (GH#2855) John A Kirkham
避免在数组优化中移除某些获取调用 (GH#2826) Jim Crist

DataFrame¶

在 dd.to_parquet 中支持 pyarrow (GH#2868) Jim Crist
修复了 DataFrame.quantile 和 Series.quantile 在存在缺失值时返回 nan 的问题 (GH#2791) Tom Augspurger
修复了当 q 是标量时 DataFrame.quantile 丢失结果 .name 的问题 (GH#2791) Tom Augspurger
修复了 dd.concat 在沿列连接单个序列时返回 dask.Dataframe ，与 pandas 的行为匹配 (GH#2800) James Munroe
将 DataFrame.eval 的默认 inplace 参数固定为与 pandas >= 0.21.0 的 pandas 默认值匹配 (GH#2838) Tom Augspurger
修复在调用 DataFrame.set_index 时，文本列中某个分区为空时引发的异常 (GH#2831) Jesse Vogt
在调用 DataFrame.set_index 时，不要在空数据框上引发异常 (GH#2827) Jesse Vogt
修复了在用 Series 值填充时 Dataframe.fillna 的错误 (GH#2810) Tom Augspurger
在 dd.to_parquet 中弃用旧的参数顺序，以更好地符合将数据框放在首位的惯例 (GH#2867) Jim Crist
df.astype(categorical_dtype -> 已知分类 (GH#2835) Jim Crist
针对 Pandas 发布候选版本进行测试 (GH#2814) Tom Augspurger
为 read_parquet(engine=’pyarrow’) 添加更多测试 (GH#2822) Uwe Korn
在聚合中移除不必要的 map_partitions (GH#2712) Christopher Prohm
修复在空分区上调用样本的错误 (GH#2818) @xwang777
在解析日期时优雅地处理错误（GH#2863）`Jim Crist`_
清理将文件系统对象传递给 PyArrow 读取器的处理 (GH#2527) @fjetter
即使没有分区也支持重新分区 (GH#2873) @Ced4
在 dd.to_parquet 中使用 pyarrow 支持读写 hdfs (GH#2894, GH#2881) Jim Crist

核心¶

允许将元组作为 sharedict 键 (GH#2763) Matthew Rocklin
在 dask.distributed 任务中调用 compute 默认使用分布式调度器 (GH#2762) Matthew Rocklin
当使用 gcs:// 协议时自动导入 gcsfs (GH#2776) Matthew Rocklin
完全移除 dask.async 模块，改用 dask.local 代替 (GH#2828) Thomas Caswell
与 bokeh 0.12.10 的兼容性 (GH#2844) Tom Augspurger
减少测试内存使用 (GH#2782) Jim Crist
添加 Dask 集合接口 (GH#2748) Jim Crist
在 XArray 集成期间更新 Dask 集合接口 (GH#2847) Matthew Rocklin
在 __exit__ 时关闭资源分析器进程 (GH#2871) Jim Crist
修复S3测试 (GH#2875) Jim Crist
修复文档中bokeh仪表盘的端口 (GH#2889) Ian Hopkinson
为PyArrow兼容性包装Dask文件系统（GH#2881） Jim Crist

0.15.4 / 2017-10-06¶

数组¶

da.random.choice 现在支持数组参数 (GH#2781)
支持使用 np.int 对数组进行索引（修复回归问题）(GH#2719)
通过重新分块处理零维度 (GH#2747)
在 chunks 中支持 -1 作为“维度大小”的别名 (GH#2749)
在 array.to_npy_stack 中调用 mkdir (GH#2709)

DataFrame¶

为具有字符串类别的分类添加了 .str 访问器 (GH#2743)
在 parquet 写入器中支持 int96 (spark) 日期时间 (GH#2711)
将文件方案传递给 fastparquet (GH#2714)
支持 Pandas 0.21 (GH#2737)

包¶

为 foldby 添加树形缩减支持 (GH#2710)

核心¶

从 pip install dask[complete] 中移除 s3fs (GH#2750)

0.15.3 / 2017-09-24¶

数组¶

添加掩码数组 (GH#2301)
添加 *_like 数组创建函数 (GH#2640)
使用无符号整数数组进行索引 (GH#2647)
使用不同维度的布尔数组进行改进的切片 (GH#2658)
在 top 和 atop 中支持字面量 (GH#2661)
累积函数中的可选轴参数 (GH#2664)
使用 assert_eq 改进标量测试 (GH#2681)
修复 norm keepdims (GH#2683)
添加 ptp (GH#2691)
添加 apply_along_axis (GH#2690) 和 apply_over_axes (GH#2702)

DataFrame¶

添加了 Series.str[index] (GH#2634)
允许 groupby by 参数处理列和索引级别 (GH#2636)
DataFrame.to_csv 和 Bag.to_textfiles 现在返回文件名
他们已经写的内容 (GH#2655)
修复 to_parquet 中 partition_on 和 append 的组合问题 (GH#2645)
修复parquet文件方案 (GH#2667)
Repartition 适用于混合分类数据 (GH#2676)

核心¶

python setup.py test 现在运行测试 (GH#2641)
新增了新的备忘单 (GH#2649)
在Bokeh图中移除调整大小工具 (GH#2688)

0.15.2 / 2017-08-25¶

数组¶

从 map_overlap 图中移除虚假键 (GH#2520)
where 适用于非布尔条件和标量值 (GH#2543) (GH#2549)
改进压缩 (GH#2541) (GH#2545) (GH#2555)
添加 argwhere、_nonzero 和 where(cond) (GH#2539)
在 dask.array 中将 vindex 泛化以处理多维索引 (GH#2573)
添加选择方法 (GH#2584)
将代码拆分到重新组织的文件中 (GH#2595)
添加 linalg.norm (GH#2597)
添加 diff, ediff1d (GH#2607), (GH#2609)
改进 dtype 推断和反射 (GH#2571)

包¶

移除已弃用的 Bag 行为 (GH#2525)

DataFrame¶

在分配中支持可调用对象 (GH#2513)
为 read_csv 提供更好的错误信息 (GH#2522)
添加 dd.to_timedelta (GH#2523)
验证 from_delayed 中的元数据 (GH#2534) (GH#2591)
添加 DataFrame.isin (GH#2558)
Read_hdf 支持文件的可迭代对象 (GH#2547)

核心¶

移除所有地方的裸 except: 块 (GH#2590)

0.15.1 / 2017-07-08¶

为 to_textfiles 和 to_csv 添加 storage_options (GH#2466)
重新分块并简化 rfftfreq (GH#2473), (GH#2475)
更好地支持 ndarray 子类 (GH#2486)
dask.distributed 中的导入星号 (GH#2503)
使用令牌化的线程安全缓存处理 (GH#2511)

0.15.0 / 2017-06-09¶

数组¶

添加 dask.array.stats 子模块 (GH#2269)
支持 ufunc.outer (GH#2345)
通过减少图形开销优化花式索引 (GH#2333) (GH#2394)
使用替代哈希进行更快的数组标记化 (GH#2377)
添加了 matmul @ 运算符 (GH#2349)
改进了 numpy.fft 模块的覆盖范围 (GH#2320) (GH#2322) (GH#2327) (GH#2323)
支持 NumPy 的 __array_ufunc__ 协议 (GH#2438)

包¶

修复了在没有任何分区的包上进行归约操作时会失败的错误 (GH#2324)
添加广播和可变参数 db.map 顶级函数。同时移除元组作为映射参数时的自动展开 (GH#2339)
将 Bag.concat 重命名为 Bag.flatten (GH#2402)

DataFrame¶

Parquet 改进 (GH#2277) (GH#2422)

核心¶

将 dask.async 模块移动到 dask.local (GH#2318)
支持嵌套调度器调用的回调 (GH#2397)
支持将 pathlib.Path 对象作为 uris (GH#2310)

0.14.3 / 2017-05-05¶

DataFrame¶

Pandas 0.20.0 支持

0.14.2 / 2017-05-03¶

数组¶

添加 da.indices (GH#2268), da.tile (GH#2153), da.roll (GH#2135)
在 da.map_blocks 中同时支持 drop_axis 和 new_axis (GH#2264)
重新分块和连接工作与未知的块大小 (GH#2235) 和 (GH#2251)
支持非numpy容器数组，特别是稀疏数组 (GH#2234)
Tensordot 对多个轴进行收缩 (GH#2186)
在 da.store 中允许延迟目标 (GH#2181)
支持对列表和元组的交互 (GH#2148)
用于调试的构造器插件 (GH#2142)
多维FFT（单块）(GH#2116)

包¶

to_dataframe 强制类型一致 (GH#2199)

DataFrame¶

Set_index 总是完全排序索引 (GH#2290)
支持与 pandas 0.20.0 的兼容性 (GH#2249), (GH#2248), 和 (GH#2246)
支持 Arrow Parquet 读取器 (GH#2223)
基于时间的滚动窗口 (GH#2198)
Repartition 现在可以创建更多分区，而不仅仅是减少分区 (GH#2168)

核心¶

在POSIX文件系统上时，始终使用绝对路径 (GH#2263)
支持用户提供的图优化 (GH#2219)
重构路径处理 (GH#2207)
提升融合性能 (GH#2129), (GH#2131), 和 (GH#2112)

0.14.1 / 2017-03-22¶

数组¶

微优化优化 (GH#2058)
更改切片优化以避免融合原始 numpy 数组 (GH#2075) (GH#2080)
Dask.array 操作现在可以在 numpy 数组上工作 (GH#2079)
Reshape 现在可以在更广泛的案例中工作 (GH#2089)
支持深拷贝 Python 协议 (GH#2090)
允许在 da.fft 中使用用户提供的 FFT 实现 (GH#2093)

DataFrame¶

修复空分区下的 to_parquet 问题 (GH#2020)
在 set_index 中可选的 npartitions='auto' 模式 (GH#2025)
优化洗牌性能 (GH#2032)
支持沿时间窗口高效重新分区，如 repartition(freq='12h') (GH#2059)
提高分类速度 (GH#2010)
支持单行数据帧算术运算 (GH#2085)
在设置索引时自动避免对已排序的列进行洗牌 (GH#2091)
改进 read_csv 中对整数 NA 处理的机制 (GH#2098)

延迟¶

延迟对象上的重复属性访问使用相同的键 (GH#2084)

核心¶

改进dot可视化中节点的命名，以避免使用通用的 apply (GH#2070)
确保工作进程具有不同的随机种子 (GH#2094)

0.14.0 / 2017-02-24¶

数组¶

修复 arange 中形状为零和值未对齐的边缘情况 (GH#1902), (GH#1904), (GH#1935), (GH#1955), (GH#1956)
提高拼接效率 (GH#1923)
如果提供了名称，避免在 from_array 中进行哈希处理 (GH#1972)

包¶

重新分区现在可以增加分区数量 (GH#1934)
修复了在空分区下的一些归约错误 (GH#1939), (GH#1950), (GH#1953)

DataFrame¶

支持非均匀分类 (GH#1877), (GH#1930)
分组累积缩减 (GH#1909)
DataFrame.loc 索引现在支持列表 (GH#1913)
改进多级分组 (GH#1914)
改进了 DataFrame 的 HTML 和字符串表示 (GH#1637)
Parquet 追加 (GH#1940)
添加 dd.demo.daily_stock 函数用于教学 (GH#1992)

延迟¶

在 delayed 中添加 traverse= 关键字，以选择性地避免遍历嵌套数据结构 (GH#1899)
在 from_delayed 函数中支持 Futures (GH#1961)
改进装饰延迟函数的序列化 (GH#1969)

核心¶

改进在边缘情况下的Windows路径解析 (GH#1910)
融合时重命名任务 (GH#1919)
添加顶级 persist 函数 (GH#1927)
在字节处理中传播 errors= 关键字 (GH#1954)
Dask.compute 遍历 Python 集合 (GH#1975)
dask.array 和 dask.delayed 中图之间的结构共享 (GH#1985)

0.13.0 / 2017-01-02¶

数组¶

dask.array 上的强制数据类型。所有操作都保持数据类型信息，并且像 map_blocks 这样的 UDF 函数现在如果无法推断数据类型，则需要一个 dtype= 关键字。 (GH#1755)
支持形状未知的数组，例如在使用数组切片数组或将数据框转换为数组时产生的情况 (GH#1838)
通过设置一个数组为另一个数组来支持变异（GH#1840）
协方差和相关性的树形约简。（GH#1758）
添加 SerializableLock 以更好地与分布式调度一起使用 (GH#1766)
改进了atop支持 (GH#1800)
重新分块优化 (GH#1737), (GH#1827)

包¶

在重新计算同一组时避免错误结果 (GH#1867)

DataFrame¶

添加 map_overlap 用于自定义滚动操作 (GH#1769)
添加 shift (GH#1773)
添加 Parquet 支持 (GH#1782) (GH#1792) (GH#1810), (GH#1843), (GH#1859), (GH#1863)
添加缺失的方法 combine, abs, autocorr, sem, nsmallest, first, last, prod, (GH#1787)
近似 nunique (GH#1807), (GH#1824)
具有多个输出分区的归约操作（例如 drop_duplicates）(GH#1808)，(GH#1823) (GH#1828)
为 DataFrames 添加 delitem 和 copy 方法，增强突变支持 (GH#1858)

延迟¶

delayed(nout=0) 和 delayed(nout=1) 的行为已更改：delayed(nout=1) 不再默认 out=None，并且 delayed(nout=0) 也已启用。即，返回长度为1或0的元组的函数可以被正确处理。这对于包装具有可变数量输出的函数特别方便。例如，一个简单的例子：delayed(lambda *args: args, nout=len(vals))(*vals)

核心¶

重构核心字节摄取 (GH#1768), (GH#1774)
改进导入时间 (GH#1833)

0.12.0 / 2016-11-03¶

DataFrame¶

当传递给 dataframe.map_partitions 的函数返回标量时返回一个序列 (GH#1515)
修复序列的类型大小推断 (GH#1513)
dataframe.DataFrame.categorize 不再在 categories 中包含缺失值。这是为了与 pandas 的更改 (GH#1565) 兼容。
修复 dataframe.read_csv 中头部解析器错误，当某些行有引号时 (GH#1495)
添加 dataframe.reduction 和 series.reduction 方法，以对数据框和序列应用通用的行级归约 (GH#1483)
添加 dataframe.select_dtypes，该方法镜像了 pandas 方法 (GH#1556)
dataframe.read_hdf 现在支持读取 Series (GH#1564)
支持 Pandas 0.19.0 (GH#1540)
实现 select_dtypes (GH#1556)
字符串访问器使用索引 (GH#1561)
为 dask.dataframe 添加管道方法 (GH#1567)
添加 indicator 关键字到合并 (GH#1575)
在 read_hdf 中支持 Series (GH#1575)
支持包含缺失值的分类 (GH#1578)
支持像 df.x += 1 这样的就地操作符 (GH#1585)
Str 访问器传递 args 和 kwargs (GH#1621)
改进了单机多进程调度器的 groupby 支持 (GH#1625)
树形缩减 (GH#1663)
数据透视表 (GH#1665)
添加 clip (GH#1667)、align (GH#1668)、combine_first (GH#1725) 和 any/all (GH#1724)
改进了 dask-pandas 合并中的分区处理 (GH#1666)
添加 groupby.aggregate 方法 (GH#1678)
添加 dd.read_table 函数 (GH#1682)
改进对多级列的支持 (GH#1697) (GH#1712)
在 loc 中支持二维索引 (GH#1726)
扩展 resample 以包含 DataFrame (GH#1741)
在 dask.dataframe 对象上支持 dask.array ufuncs (GH#1669)

数组¶

添加关于 dask.array chunks 参数如何工作的信息 (GH#1504)
修复 dask.array 中非标量字段的字段访问 (GH#1484)
在atop中添加concatenate=关键字以连接缩减维度后的块
优化切片性能 (GH#1539) (GH#1731)
扩展 atop 功能，增加 concatenate= (GH#1609)、new_axes= (GH#1612) 和 adjust_chunks= (GH#1716) 关键字
添加 clip (GH#1610) swapaxes (GH#1611) round (GH#1708) repeat
在 atop 支持的操作中自动对齐块 (GH#1644)
在切片时剔除 dask.arrays (GH#1709)

包¶

修复 bag.from_sequence 中可调用对象被解释为任务的问题 (GH#1491)
避免在归约中使用非惰性内存 (GH#1747)

管理¶

添加了变更日志 (GH#1526)
从线程操作时创建新的线程池 (GH#1487)
将示例文档页面统一为一个 (GH#1520)
为基于git提交的版本添加versioneer (GH#1569)
在dot可视化中传递node_attr和edge_attr关键字 (GH#1614)
使用 Appveyor 为 Windows 添加持续测试 (GH#1648)
移除对 multiprocessing.Manager 的使用 (GH#1653)
添加全局优化关键字以进行计算（GH#1675）
微优化 get_dependencies (GH#1722)

0.11.0 / 2016-08-24¶

主要观点¶

现在，DataFrames 在任何地方都强制要求了解完整的元数据（列、数据类型）。以前，当函数丢失数据类型信息（如 apply）时，我们会处于一种模糊状态。现在，所有数据框始终知道它们的数据类型，并且在无法推断时会引发错误，要求提供信息（通常它们可以推断）。一些内部属性，如 _pd 和 _pd_nonempty 已被移动。

分布式调度器的内部结构已重构，以在显式状态之间转换任务。这提高了弹性、调度推理、插件操作和日志记录。同时，这也使得新来者更容易理解调度器代码。

重大变更¶

distributed.s3 和 distributed.hdfs 命名空间已不存在。请改用 read_text('s3://...' 等常规方法中的协议。
Dask.array.reshape 现在在某些情况下会报错，而以前它会创建大量任务。

0.10.2 / 2016-07-27¶

更多的 DataFrame 洗牌操作现在可以在分布式环境中工作，包括设置索引、哈希连接、排序连接和分组操作。
当在Python的优化-OO模式下运行时，Dask通过了完整的测试套件。
在某些高度并发的情境下，尤其是在Windows系统上，磁盘洗牌操作被发现会产生错误的结果。这一问题已通过修复partd库得到了解决。
修复了在大数据通信下发生的文件描述符增长问题
在 --bokeh-whitelist 选项中支持端口，以便在复杂的网络设置下更好地路由web界面消息
对工作节点故障的恢复能力有所改进（尽管其他已知故障仍然存在）
你现在可以在任何工作节点上启动一个 IPython 内核，以改进调试和分析
对 dask.dataframe.read_hdf 的改进，特别是在从多个文件读取和文档方面

0.10.0 / 2016-06-13¶

重大变化¶

此版本放弃了对 Python 2.6 的支持
Conda 包是从 conda-forge 构建并提供的
dask.distributed 的可执行文件已从 dfoo 重命名为 dask-foo。例如，dscheduler 已重命名为 dask-scheduler。
Bag 和 DataFrame 都包含一个初步的分布式洗牌。

包¶

为分布式分组添加基于任务的洗牌
添加累积以进行累积归约

DataFrame¶

添加一个适合分布式连接、分组应用和设置索引操作的任务型洗牌。单机洗牌保持不变（并且效率更高。）
添加对新的 Pandas rolling API 的支持，提升分布式系统上的通信性能。
添加 groupby.std/var
在 read_csv 中传递 S3/HDFS 存储选项
改进分类分区
为数据框添加 eval、info、isnull、notnull 功能

分布式¶

将可执行文件如 dscheduler 重命名为 dask-scheduler
在多快速任务情况下提高调度器性能（对洗牌操作很重要）
改进工作窃取机制，使其能够感知预期函数运行时间和数据大小。这大大增加了可以在分布式调度器上高效运行的算法的广度，而无需用户具备显著的专业知识。
在流式队列中支持最大缓冲区大小
在使用 Bokeh 诊断网页界面时改进 Windows 支持
支持在协议中压缩非常大的字节字符串
支持在 Joblib 接口中取消已提交的 futures 的清理操作

其他¶

所有与dask相关的项目（dask、distributed、s3fs、hdfs、partd）现在都在conda-forge上构建conda包。
在 s3fs 中更改凭证处理，仅在明确给出密钥/密钥时传递委托凭证。现在默认依赖于托管环境。可以通过明确提供关键字参数来更改回原来的设置。如果需要匿名模式，必须明确声明。

0.9.0 / 2016-05-11¶

API 变更¶

dask.do 和 dask.value 已重命名为 dask.delayed
dask.bag.from_filenames 已重命名为 dask.bag.read_text
所有S3/HDFS数据摄取功能，如 db.from_s3 或 distributed.s3.read_csv ，都已移至普通的 read_text 、 read_csv 函数中，这些函数现在支持协议，如 dd.read_csv('s3://bucket/keys*.csv')

数组¶

添加对 scipy.LinearOperator 的支持
改进对磁盘数据结构的选配锁定
更改 rechunk 以暴露中间块

包¶

将 from_filename 重命名为 read_text
移除 from_s3 以支持 read_text('s3://...')

DataFrame¶

修复了相关性和协方差的数值稳定性问题
允许无哈希 from_pandas 以实现快速往返于 pandas 对象
通常重新设计了 read_csv 以更符合 Pandas 的行为
支持对已排序列的快速 set_index 操作

延迟¶

将 do/value 重命名为 delayed
将 to/from_imperative 重命名为 to/from_delayed

分布式¶

将 s3 和 hdfs 功能移入 dask 仓库
自适应地为非常快的任务超额订阅工作者
改进 PyPy 支持
改进不平衡工作者的任务窃取
使用树散点图高效分散数据

其他¶

添加 lzma/xz 压缩支持
当尝试分割不可分割的压缩类型（如gzip或bz2）时，发出警告。
改进单机洗牌操作的哈希算法
为开始状态添加新的回调方法
性能调优概述

0.8.1 / 2016-03-11¶

数组¶

修复了可能导致周期性结果不正确的范围切片错误。
改进了 arg 归约（如 argmin、argmax 等）的支持和弹性。

包¶

添加 zip 函数

DataFrame¶

添加 corr 和 cov 函数
添加 melt 函数
修复了io到bcolz和hdf5的错误

0.8.0 / 2016-02-20¶

数组¶

将默认数组归约拆分从32更改为4
线性代数, tril, triu, LU, inv, cholesky, solve, solve_triangular, eye, lstsq, diag, corrcoef.

包¶

添加树形简化
添加范围函数
删除 from_hdfs 函数（现在 hdfs3 和 distributed 项目中已有更好的功能）

DataFrame¶

重构 dask.dataframe 以包含一个完全空的 pandas dataframe 作为元数据。删除 Series 上的 .columns 属性
添加 Series 分类访问器，series.nunique，删除 Series 的 .columns 属性。
read_csv 修复（多列 parse_dates、整数列名等）
内部更改以改进图形序列化

其他¶

文档更新
为所有集合添加 from_imperative 和 to_imperative 函数
对分析器图表的美观性更改
将 dask 项目移至新的 dask 组织

0.7.6 / 2016-01-05¶

数组¶

提高线程安全性
树的归约
添加 view、compress、hstack、dstack、vstack 方法
map_blocks 现在可以移除和添加维度

DataFrame¶

提高线程安全性
扩展采样以包括替换选项

命令式¶

移除了融合结果的优化过程。

核心¶

移除了 dask.distributed
改进了阻塞文件读取的性能
序列化改进
测试 Python 3.5

0.7.4 / 2015-10-23¶

这主要是一个修复错误的版本。一些值得注意的变化：

修复与numpy 1.10和pandas 0.17发布相关的小错误
修复了一个随机数生成中的错误，该错误由于生日悖论会导致重复块。
默认情况下在 dask.dataframe.read_hdf 中使用锁以避免并发问题
将 dask.get 默认指向 dask.async.get_sync
允许可视化函数接受像 rankdir=’LR’ 这样的通用 graphviz 图选项
将 reshape 和 ravel 添加到 dask.array
支持从 dask.imperative 对象创建 dask.arrays

弃用¶

此版本还包括对 dask.distributed 的弃用警告，该功能将在下一个版本中移除。

dask 在分布式计算方面的未来发展正在这里进行：https://distributed.dask.org 。该项目非常欢迎来自社区的总体反馈。

0.7.3 / 2015-09-25¶

诊断¶

dask.diagnostics 模块中添加了一个用于分析内存和CPU使用情况的工具。

DataFrame¶

此版本改进了 pandas API 的覆盖范围。其中包括 nunique、nlargest、quantile 等功能。修复了读取非 ASCII csv 文件时的编码问题。改进了重采样的性能和修复了相关错误。使用 globbing 更灵活地读取 HDF 文件。以及更多其他改进。修复了 dask.imperative 和 dask.bag 中的各种错误。

0.7.0 / 2015-08-15¶

DataFrame¶

此版本包含重要的错误修复，并与 Pandas API 保持一致。这一成果既来自于使用，也来自于 Pandas 核心开发者的近期参与。

新操作：查询、滚动操作、删除
改进的操作：分位数、对整个数据框的算术运算、删除缺失值、构造逻辑、合并/连接、逐元素操作、分组聚合

包¶

修复了折叠功能中的一个错误，该错误在默认参数为空时出现。

数组¶

新操作：da.fft 模块，da.image.imread

基础设施¶

数组和数据帧集合创建具有确定性键的图表。这些键通常较长（哈希字符串），但在计算之间应保持一致。这在未来将有助于缓存。
所有集合（数组、包、数据框）都继承自公共子类

0.6.1 / 2015-07-23¶

分布式¶

改进了（尽管还不够充分）``dask.distributed`` 在工作者死亡时的恢复能力

DataFrame¶

改进的写作到各种格式，包括 to_hdf、to_castra 和 to_csv
改进了从 dask 数组和包创建 dask DataFrame 的过程
改进了对分类数据的支持以及各种其他方法

数组¶

各种错误修复
直方图函数

调度¶

在并行工作负载中添加了任务的打破平局排序，以更好地处理和清除中间结果

其他¶

添加了 dask.do 函数，用于使用普通 Python 代码显式构建图
将 pydot 替换为 graphviz 库以支持 Python3 的图形打印
还有一个 gitter 聊天室和一个 stackoverflow 标签

内容

更新日志¶

2024.9.0¶

亮点¶

将 Bokeh 最低版本提升至 3.1.0¶

介绍新的 Task 类¶

2024.8.2¶

亮点¶

自动选择重新分块方法¶

Dask 数组的新洗牌 API¶

Dask 数组的新的 blockwise_reshape API¶

多维位置索引保持块大小一致¶

2024.8.1¶

亮点¶

改进重塑Dask数组的输出块大小¶

提高Xarray Rechunk-GroupBy-Reduce模式的调度效率¶

放弃对 Python 3.9 的支持¶

2024.8.0¶

亮点¶

通过位置索引器提高切片效率和性能¶

提高 Xarray GroupBy-Reduce 模式的调度效率¶

2024年7月1日¶

亮点¶

更强大的分布式锁¶

2024.7.0¶

亮点¶

放弃对 pandas 1.x 的支持¶

发布-订阅 API 已弃用¶

2024.6.2¶

2024.6.1¶

亮点¶

2024.6.0¶

亮点¶

内存映射数组分词¶

2024年5月2日¶

2024年5月1日¶

亮点¶

NumPy 2.0 支持¶

增强的 Zarr 存储支持¶

2024.5.0¶

亮点¶

2024年4月2日¶

亮点¶

简单的合并实现¶

read_parquet 中的自动分区¶

2024年4月1日¶

2024.4.0¶

亮点¶

查询计划修复¶

GPU 指标仪表板修复¶

2024年3月1日¶

2024.3.0¶

亮点¶

查询规划¶

Pandas 1.X 支持的落日¶

2024年2月1日¶

亮点¶

允许静默 dask.DataFrame 弃用警告¶

更强大的分布式调度器，用于处理罕见的关键冲突¶

在大规模集群上更强大的自适应缩放¶

2024.2.0¶

亮点¶

弃用 Dask DataFrame 实现¶

改进的分词¶

2024年1月1日¶

亮点¶

Pandas 2.2 和 Scipy 1.12 支持¶

弃用¶

2024.1.0¶

亮点¶

P2P 中的部分重新分块¶

Fastparquet 引擎已弃用¶

改进了对任意数据的序列化¶

额外的弃用¶

2023.12.1¶

亮点¶

逻辑查询计划现可用于 Dask DataFrames¶

read_parquet 中的Dtype推断¶

调度改进以减少内存使用¶

`read_parquet` 中的自动分区¶

`read_parquet` 中的Dtype推断¶

Pip安装重启和环境变量¶