更新日志
内容
更新日志¶
2024.9.0¶
亮点¶
将 Bokeh 最低版本提升至 3.1.0¶
bokeh>=3.1.0
现在是为诊断和分布式集群仪表板所必需的。
更多详情请参见 James Bourbeau 的 GH#11375 和 GH#8861。
介绍新的 Task 类¶
添加一个 Task
类来替代用于任务规范的元组。
详情请参阅 Florian Jetter 的 GH#11248。
其他更改
将
peter-evans/create-pull-request
从 6 升级到 7 (GH#11380)减少 tokenize 的开销 (GH#11373) Florian Jetter
将
tokenize
移动到专用子模块 (GH#11371) Florian Jetter确保
process_runnables
在存在多个分割时不至于过于急切 (GH#11367) Florian Jetter在shuffle中使用
np.min_scalar_type
(GH#11369) James Bourbeau将索引数组写入dask图以减少多个xarray变量的大小(GH#11362) Patrick Hoefler
在洗牌中将索引器转换为最小的
dtype
(GH#11364) Patrick Hoefler减少
dask.order
的内存使用 (GH#11361) Florian Jetter将
JamesIves/github-pages-deploy-action
从 4.6.3 升级到 4.6.4 (GH#11366)precommit
自动更新 (GH#11360) Florian Jetter均匀调度 P2P 的解包任务 (GH#8873) Hendrik Makait
为本地主机工作/修复防火墙 (GH#8868) Mario Linker
使用新的
tokenize
模块 (GH#8858) James Bourbeau使用幂等插件警告指向用户代码 (GH#8856) James Bourbeau
修复测试保姆超时 (GH#8847) Florian Jetter
将 JamesIves/github-pages-deploy-action 从 4.5.0 升级到 4.6.4 (GH#8853)
通过仅对
func
和kwargs
计算一次token
来加速Client.map
(GH#8855) Florian Jetter更新
pre-commit
(GH#8852) Florian Jetter
2024.8.2¶
亮点¶
自动选择重新分块方法¶
为了使用户能够在比以前更大的规模上重新分块数据,Dask 现在在集群上重新分块时会自动选择适当的重新分块方法。这不需要额外的配置,并且默认启用。
具体来说,Dask 在基于任务和点对点(P2P)重新分块之间进行选择。虽然基于任务的重新分块一直是之前的默认选项,但当重新分块需要旧块和新块之间的几乎所有对所有通信时,P2P 重新分块是有益的,例如在空间和时间分块之间切换时。在这些情况下,P2P 重新分块提供恒定的内存使用,并创建更小的任务图。因此,它适用于基于任务的重新分块之前会失败的场景。
要禁用自动选择,用户可以通过配置选择他们偏好的方法。
import dask.config
# Choose either "tasks" or "p2p"
dask.config.set({"array.rechunk.method": "tasks"})
或在重新分块时
import dask.array as da
arr = da.random.random(size=(1000, 1000, 365), chunks=(-1, -1, "auto"))
# Choose either "tasks" or "p2p"
arr = arr.rechunk(("auto", "auto", -1), method="tasks")
更多详情请参见 Hendrik Makait 的 GH#11337。
Dask 数组的新洗牌 API¶
Dask 为 Dask Arrays 添加了一个 shuffle-API。此 API 允许沿单个维度对数据进行洗牌。它将确保沿此维度的每个元素组都恰好在一个块中。这对于 Xarray 中的 GroupBy-Map 模式是一个非常有用的操作。更多信息和 API 签名请参见 shuffle()
。
更多详情请参见 GH#11267, GH#11311 和 GH#11326,由 Patrick Hoefler 提供。
Dask 数组的新的 blockwise_reshape API¶
新的 blockwise_reshape()
为那些不关心底层数组顺序的情况启用了令人尴尬的并行重塑操作。它是令人尴尬的并行,并且不再在底层触发重新分块操作。当你不关心结果数组的顺序时,这很有用,例如,如果对数组应用了归约操作,或者重塑只是暂时的。
arr = da.random.random(size=(100, 100, 48_000), chunks=(1000, 100, 83)
result = reshape_blockwise(arr, (10_000, 48_000))
result.sum()
# or: do something that preserves the shape of each chunk
result = reshape_blockwise(result, (100, 100, 48_000), chunks=arr.chunks)
如果维度数量减少,Dask 会自动计算结果块,但如果维度数量增加,则必须指定结果块。
重塑 Dask 数组通常会在中间进行重新分块操作,从而创建非常复杂的计算,因为 Dask 默认尊重数组的 C 顺序。这确保了生成的 Dask 数组与相应的 NumPy 数组顺序相同。然而,这可能导致非常低效的计算。如果你不关心顺序,blockwise_reshape
比默认实现要高效得多。
警告
块状重塑操作作为默认设置更高效,但它们将返回一个顺序不同的数组。请谨慎使用!
更多详情请参见 GH#11328 由 Patrick Hoefler 提供。
多维位置索引保持块大小一致¶
使用 vindex()
对 Dask 数组进行索引时,以前会在被索引的维度上创建一个单一的输出块。vindex
通常在 Xarray 中用于在单一步骤中索引多个维度,即:
arr = xr.DataArray(
da.random.random((100, 100, 100), chunks=(5, 5, 50)),
dims=['a', "b", "c"],
)
之前,这会将索引维度放入单个块中:
Dask 现在使用了一种改进的算法,确保块大小保持一致:
更多详情请参见 Patrick Hoefler 的 GH#11330。
其他更改
为 shuffle、
vindex
和blockwise_reshape
添加变更日志条目 (GH#11350) Patrick Hoefler确保持久化集合在无GC情况下释放 (GH#11348) Florian Jetter
更新dask会议的zoom链接 (GH#11357) Sarah Charlotte Johnson
在基于任务和点对点重新分块之间自动选择 (GH#11337) Hendrik Makait
为数组实现块状重塑API (GH#11328) Patrick Hoefler
使洗牌中的重新分块更加智能,必要时可以不均匀分布 (GH#11326) Patrick Hoefler
增加 GPU CI 更新的可见性 (GH#11345) Charles Blackmon-Luca
在安装文档中更新
numpy
和pyarrow
版本 (GH#11340) James Bourbeau修复 dask 和 distributed 依赖 (GH#11338) Patrick Hoefler
将
numpy>=1.24
和pyarrow>=14.0.1
的最低版本提升 (GH#11331) James Bourbeau将
crick
添加回 Python 3.11+ CI 构建 (GH#11335) James Bourbeau在
vindex
中保留 chunksizes (GH#11330) Patrick Hoefler修复
dask.array.fft
与 Numpy 接口的不匹配问题(添加对 norm 参数的支持) (GH#10665) joanrue向
rechunk_p2p
传递额外参数 (GH#11319) Hendrik Makait修复在2.0版本中``prod``对NumPy溢出的问题 (GH#11327) Patrick Hoefler
修复
map_overlap
与new_axis
(GH#11128) David Stansby避免捕获
xdist
的代码(GH#8846)`Florian Jetter`_减少P2P重新分块的内存占用 (GH#8845) Hendrik Makait
为选择默认的重新分块方法添加测试 (GH#8843) Hendrik Makait
增加 GPU CI 更新的可见性 (GH#8841) Charles Blackmon-Luca
增加
test_pause_while_idle
的超时时间 (GH#8844) Florian Jetter在P2P重新分块之前连接小的输入块 (GH#8832) Hendrik Makait
从
gen_cluster
中移除 dump 集群 (GH#8823) Florian Jetter将
numpy>=1.24
和pyarrow>=14.0.1
的最低版本提升 (GH#8837) James Bourbeau修复
Worker
上的PipInstall
插件 (GH#8839) Hendrik Makait移除更多 Python 3.10 兼容性代码 (GH#8824) James Bourbeau
使用基于任务的重新分块来沿部分边界预分块 (GH#8831) Hendrik Makait
确保
client_desires_keys
不会破坏Scheduler
状态 (GH#8827) Florian Jetter将最小
cloudpickle
版本提升至 3 (GH#8836) James Bourbeau
2024.8.1¶
亮点¶
改进重塑Dask数组的输出块大小¶
重塑 Dask 数组时,通常会将维度压缩成一个单一的分块。这导致了非常大的输出分块,随后引发了许多内存溢出错误和性能问题。
arr = da.ones(shape=(1000, 100, 48_000), chunks=(1000, 100, 83))
arr.reshape(1000, 100, 4, 12_000)
之前,这会将最后一个维度放入一个大小为12,000的单个块中。
新算法将确保输入和输出之间的块大小保持一致。这将避免块大小的急剧增加和块的碎片化。
提高Xarray Rechunk-GroupBy-Reduce模式的调度效率¶
调度器之前为使用群体策略的 Xarray GroupBy-Reduction 模式创建了一个低效的执行图:
import xarray as xr
arr = xr.open_zarr(...)
arr.chunk(time=TimeResampler("ME")).groupby("time.month").mean()
任务图执行顺序算法中的一个问题导致了一种效率低下的执行策略,该策略在集群上积累了大量不必要的内存。改进与 2024.08.0 中的先前排序改进 非常相似。
放弃对 Python 3.9 的支持¶
此版本根据 NEP 29 放弃了对 Python 3.9 的支持。现在,运行 Dask 所需的最低版本是 Python 3.10。
更多详情请参见 GH#11245 和 GH#8793 由 Patrick Hoefler 提供。
其他更改
确保
pickle
不改变标记 (GH#11320) Florian Jetter为
reshape
和排序改进添加变更日志条目 (GH#11324) Patrick Hoefler重命名
chunksize-tolerance
选项 (GH#11317) Patrick Hoefler升级 gpuCI 并修复使用 “cupy” 后端时的 Dask Array 故障 (GH#11309) Richard (Rick) Zamora
为
shuffle
实现自动重新分块 (GH#11311) Patrick Hoefler确保我们在CI中针对
numpy
2 进行测试 (GH#11182) James Bourbeau恢复“在分布式调度器上测试排序 (GH#11310)” (GH#11321) Florian Jetter
在分布式调度器上测试排序 (GH#11310) Florian Jetter
添加测试以覆盖新
reshape
实现 (GH#11313) 的更多情况 Patrick Hoefler顺序:为具有多个叶节点的分支选择更好的目标 (GH#11303) Patrick Hoefler
顺序:确保可运行的任务确实可运行 (GH#11305) Florian Jetter
修复上游
numpy
构建 (GH#11304) Patrick Hoefler如果可能,使
shuffle
成为无操作 (GH#11291) Patrick Hoefler在
reshape
中保持chunksize
一致 (GH#11273) Patrick Hoefler启用仅有一个未知块的切片 (GH#11301) Patrick Hoefler
在 Dask 文档中链接到
dask
与spark
的基准测试 (GH#11289) Sarah Charlotte Johnson修复掩码数组的切片问题 (GH#11300) Patrick Hoefler
数组:修复
asarray
对于带有dtype
的数组输入 (GH#11288) Lucas Colley将
numpy
常量添加到数组 API (GH#11287) Lucas Colley忽略返回值的类型 (GH#11286) Patrick Hoefler
在重塑中移除自动调整大小 (GH#11269) Patrick Hoefler
API: 在
dask.array
命名空间中暴露np
数据类型 (GH#11178) Lucas Colley减少未管理内存使用警告的频率 (GH#8834) Patrick Hoefler
将 gpuCI
RAPIDS_VER
更新为24.10
(GH#8786)避免
Server._shift_counters()
中的RuntimeError: dictionary changed size during iteration
(GH#8828) Hendrik Makait改进调度器的并发关闭 (GH#8829) Hendrik Makait
次要:从P2P重新分块中的部分连接中提取截断逻辑 (GH#8826) Hendrik Makait
避免
remove_from_task_prefix_count
的过度属性访问开销 (GH#8821) Florian Jetter如果验证被禁用,则避免键验证 (GH#8822) Florian Jetter
记录
worker_client
事件 (GH#8819) James Bourbeau
2024.8.0¶
亮点¶
通过位置索引器提高切片效率和性能¶
通过位置索引器对 Dask 数组进行切片时的性能改进。随机访问模式现在更加稳定,并产生更易于使用的输出结果。
x[slice(None), [1, 1, 3, 6, 3, 4, 5]]
使用位置索引器之前容易导致输出块的数量急剧增加,并生成非常大的任务图。这一问题已通过更高效的算法得到解决。
新的算法将保持沿被索引轴的块大小相同,以避免块的碎片化或块大小的显著增加。
更多详情和性能基准测试请参见 Patrick Hoefler 的 GH#11262 和 GH#11267。
提高 Xarray GroupBy-Reduce 模式的调度效率¶
调度器之前为 Xarray GroupBy-Reduction 模式创建了一个低效的执行图,例如:
import xarray as xr
arr = xr.open_zarr(...)
arr.groupby("time.month").mean()
任务图执行顺序算法中的一个问题导致了一种低效的执行策略,该策略在集群上积累了大量不必要的内存。
该操作本身是令人尴尬的并行。使用适当的执行策略,调度器现在可以以恒定的内存执行操作,避免溢出,并允许我们扩展到更大的数据集。
更多详情和示例请参见 Patrick Hoefler 的 GH#8818。
其他更改
为 dask 顺序补丁添加变更日志 (GH#11278) Patrick Hoefler
为
xarray
映射减少添加回归测试 (GH#11277) Florian Jetter为
take
添加变更日志条目 (GH#11274) Patrick Hoefler恢复“order: 移除数据任务图规范化” (GH#11276) Patrick Hoefler
使用 shuffle 算法进行
take
(GH#11267) Patrick Hoefler实现基于任务的数组洗牌 (GH#11262) Patrick Hoefler
移除数据任务图规范化 (GH#11263) Florian Jetter
更新月度会议的Zoom链接 (GH#11265) Sarah Charlotte Johnson
更新最佳实践中的数据加载部分 (GH#11247) Patrick Hoefler
将文档字符串中的默认
chunksize
匹配到代码中实际设置的默认值 (GH#11254) Bernhard Raml修复
pandas
3 中的类型转换错误 (GH#11250) Patrick Hoefler跳过
pandas
的新警告 (GH#11249) Patrick Hoefler修复
pandas
的夜间构建错误 (GH#11244) Patrick Hoefler在 dask 顺序之后运行图规范化 (GH#8818) Patrick Hoefler
更新大型图表尺寸警告以移除散点图推荐 (GH#8815) Patrick Hoefler
失败超过
no-workers-timeout
的任务 (GH#8806) Hendrik Makait修复
NannyPlugin.setup
和NannyPlugin.teardown
的异常处理 (GH#8811) Hendrik Makait修复
WorkerPlugin.setup
和WorkerPlugin.teardown
的异常处理 (GH#8810) Hendrik Makait拼写修正 (GH#8812) alex-rakowski
修复
send_recv_from_rpc
的if
/else
(GH#8809) Patrick Hoefler确保自适应只停止一次 (GH#8807) Hendrik Makait
减少与GC相关的日志噪音 (GH#8804) Hendrik Makait
从
Scheduler
中移除未使用的delete_interval
和synchronize_worker_interval
(GH#8801) Hendrik Makait更改计算失败日志消息的日志级别 (GH#8802) Patrick Hoefler
为GC花费的时间添加Prometheus指标 (GH#8803) Hendrik Makait
为
dask_worker_{added|removed}_total
添加 Prometheus 指标 (GH#8798) Hendrik Makait为
worker-ttl-timed-out
添加日志事件 (GH#8800) Hendrik Makait为
dask_client_connections_{added|removed}_total
添加 Prometheus 指标 (GH#8799) Hendrik Makait修复
PackageInstall
插件 (GH#8794) Hendrik Makait使盗窃更加稳健 (GH#8788) Hendrik Makait
留下关于未来实例化的警告 (GH#8782) Florian Jetter
2024年7月1日¶
亮点¶
更强大的分布式锁¶
distributed.Lock
现在能够抵御工作节点故障。以前,在持有锁的工作节点丢失或因错误未能释放锁的情况下,可能会发生死锁。
更多详情请参见 Florian Jetter 的 GH#8770。
其他更改
移除并警告持久使用 (GH#11237) Patrick Hoefler
在创建
meta
时保留timestamp
单位 (GH#11233) Patrick Hoefler确保
dask-expr
DataFrame
在放入delayed
时得到优化(GH#11231) Patrick Hoefler修复
pandas=3
中d
频率弃用的问题 (GH#11228) James Bourbeau提高
test_quantile
的近似阈值 (GH#10720) Florian Jetter将
xarray-contrib/issue-from-pytest-log
从 1.2.8 升级到 1.3.0 (GH#11221)将
JamesIves/github-pages-deploy-action
从 4.6.1 升级到 4.6.3 (GH#11222)确保
Lock
始终向调度器注册 (GH#8781) Florian Jetter暂时固定
setuptools < 71
(GH#8785) James Bourbeau在
TaskPrefix
上恢复len()
(GH#8783) Hendrik Makait避免
p2p-failed
日志事件的误报 (GH#8777) Hendrik Makait在 Prometheus 中分别展示暂停和退休的工人 (GH#8613) Patrick Hoefler
创建过渡失败日志事件 (GH#8776) alex-rakowski
为P2P重新分块实现HLG层 (GH#8751) Hendrik Makait
为可能由 (GH#8703) (GH#8769) Hendrik Makait 引起的死锁场景添加另一个测试
如果在已释放的未来上对持久化集合进行计算,则引发错误 (GH#8764) Florian Jetter
从失败的P2P任务中重新引发
P2PConsistencyError
(GH#8748) Hendrik Makait更稳健、更快的测试内存采样器 (GH#8758) Florian Jetter
修复
scheduler_bokeh::test_shuffling
(GH#8766) Florian Jetter增加
pubsub::test_client_worker
的超时时间 (GH#8765) Florian Jetter提取异步任务组 (GH#8756) Florian Jetter
不要在工作者表中按字典顺序排序键 (GH#8753) Florian Jetter
对于频繁调用的函数,使用
functools.cache
而不是functools.lru_cache
(GH#8762) Jonas Dedden更强大的深度嵌套结构 (GH#8730) Florian Jetter
将HLG添加到MAP (GH#8740) alex-rakowski
在工作者信息页面添加关闭工作者按钮 (GH#8742) James Bourbeau
2024.7.0¶
亮点¶
放弃对 pandas 1.x 的支持¶
此版本放弃了对 pandas<2
的支持。pandas
2.0 现在是运行 Dask DataFrame 所需的最低版本。
partd
的最低版本也提升至 1.4.0。1.4 之前的版本与 pandas
2 不兼容。
更多详情请参见 Patrick Hoefler 的 GH#11199。
发布-订阅 API 已弃用¶
distributed.Pub
和 distributed.Sub
已被弃用,并将在未来的版本中移除。请改为使用 distributed.Client.log_event()
和 distributed.Worker.log_event()
。
详情请参见 Hendrik Makait 的 GH#8724。
其他更改
仅计算
xarray
sizeof
中内存中的数据(GH#11206)`Florian Jetter`_修复
botocore
重新引发错误 (GH#11209) Patrick Hoefler更新文档中的 Coiled 链接 (GH#11211) Sarah Charlotte Johnson
添加一些数组表达式方法 (GH#11210) Patrick Hoefler
修复箭头数据类型的
quantile
(GH#11202) Patrick Hoefler添加工具以验证可选依赖 (GH#11205) Patrick Hoefler
实现数组表达式切换 (GH#11203) Patrick Hoefler
移除不再支持的
ipython
引用 (GH#11196) Patrick Hoefler移除
from_delayed
引用 (GH#11195) Patrick Hoefler添加其他 IO 连接器到文档 (GH#11189) Patrick Hoefler
从
cudf
修复assert_eq
导入 (GH#8747) James Bourbeau任务错误时记录回溯 (GH#8746) Hendrik Makait
在轮询 Prometheus 指标时更新系统监控 (GH#8745) Hendrik Makait
在
mindeps
构建中将pandas
升级到 2.0 (GH#8743) James Bourbeau将事件日志功能重构到代理中 (GH#8731) Hendrik Makait
放弃对 pandas 1.X 的支持 (GH#8741) Hendrik Makait
移除
is_python_shutting_down
(GH#8492) Hendrik Makait修复
test_task_state_instance_are_garbage_collected
(GH#8735) Hendrik Makait修复浮点数不准确性 (GH#8736) Hendrik Makait
修复
pynvml
句柄 (GH#8693) Benjamin Zaitlenget_ip
: 处理获取0.0.0.0
(GH#8712) Adam Williamson在
test_task_state_instance_are_garbage_collected
中移除FutureWarning
(GH#8734) Hendrik Makait修复 CI 上的
mindeps
测试 (GH#8728) Hendrik Makait将事件日志相关的测试提取到单独的文件中 (GH#8733) Hendrik Makait
为
ProcessPoolExecutor
使用更安全的环境 (GH#8715) Elliott Sales de Andrade在仪表板中缓存工作地址的URL编码 (GH#8725) Florian Jetter
更强大的
bokeh
test_shuffling
(GH#8727) Florian Jetter修复演员文档中的类型错误 (GH#8711) Sultan Orazbayev
如果提供了插件类型而不是实例,则显示更有用的警告 (GH#8689) Florian Jetter
改进由于断开连接导致的任务取消错误 (GH#8705) Hendrik Makait
修复
test_forget_errors
上的等待条件 (GH#8714) Elliott Sales de Andrade跳过
test_deadlock_dependency_of_queued_released
(GH#8723) Hendrik Makait修复
test_quiet_client_close
(GH#8722) Hendrik Makait修复
save_sys_modules
中的清理迭代 (GH#8713) Elliott Sales de Andrade为缺失的
bokeh
安装命令添加引号 (GH#8717) James Bourbeau
2024.6.2¶
这是一个补丁发布,用于更新2024.6.1版本中``dask``和``distributed``版本固定的问题。
其他更改
使文档构建通过 (GH#11184) James Bourbeau
profile._f_lineno
: 在 Python 3.13 中处理next_line
为None
(GH#8710) Adam Williamson
2024.6.1¶
亮点¶
此版本包含一个关键修复,修复了当根任务的依赖项因工作节点丢失等原因被重新调度时可能出现的死锁问题。
更多详情请参见 Hendrik Makait 的 GH#8703。
其他更改
缓存全局查询规划配置 (GH#11183) Richard (Rick) Zamora
Python 3.13 修复了 (GH#11185) Adam Williamson
修复
pandas=3
的test_map_freq_to_period_start
(GH#11181) James Bourbeau将 release-drafter/release-drafter 从 5 升级到 6 (GH#8699)
2024.6.0¶
亮点¶
内存映射数组分词¶
现在,对 memmap
数组进行分词将避免将数组具体化到内存中。
更多详情请参见 Florian Jetter 的 GH#11161。
其他更改
修复
test_dt_accessor
在禁用查询计划时的问题 (GH#11177) James Bourbeau使用
packaging.version.Version
(GH#11171) James Bourbeau移除已弃用的
dask.compatibility
模块 (GH#11172) James Bourbeau确保
xarray.NamedArray
的兼容性 (GH#11168) Hendrik Makait估计
xarray
集合的大小 (GH#11166) Florian Jetter添加关于期货和变量的章节 (GH#11164) Florian Jetter
更新了合并的Dask社区会议信息的文档 (GH#11159) Sarah Charlotte Johnson
避免在
test_prometheus_collect_count_total_by_cost_multipliers
中的舍入误差 (GH#8687) Hendrik Makait在
update_graph
日志事件中记录键冲突计数 (GH#8692) Hendrik Makait当推送新标签时自动发布 GitHub 版本 (GH#8626) Jacob Tomlinson
修复具有多个主题的日志事件 (GH#8691) Hendrik Makait
在
Scheduler.remove_worker
中将safe
重命名为expected
(GH#8686) Hendrik Makait失败期间的日志事件 (GH#8663) Hendrik Makait
急切地更新
TaskPrefix
的聚合统计数据,而不是按需计算 (GH#8681) Hendrik Makait通过避免将解包递归到索引中来改进P2P重新分块的图提交时间 (GH#8672) Florian Jetter
在
remove-worker
事件中添加安全关键字 (GH#8647) alex-rakowski改进了P2P RPC调用的错误处理并减少了日志记录 (GH#8666) Hendrik Makait
调整
dask-expr
的 P2P 测试 (GH#8662) Hendrik Makait遍历
Server.digests_total_since_heartbeat
的副本以避免RuntimeError
(GH#8670) Hendrik Makait在计算失败时记录任务状态 (GH#8668) Hendrik Makait
为任务组添加 Prometheus 仪表 (GH#8661) Hendrik Makait
修复
pandas
子类中 shuffle 代码的过于严格的断言 (GH#8667) Joris Van den Bossche减少不应运行的错误任务的噪音(GH#8664) Hendrik Makait
2024年5月2日¶
此版本主要包含一些小的错误修复。
其他更改
修复CI中的夜间Zarr安装 (GH#11151) James Bourbeau
将 Python 3.11 构建添加到 GPU CI (GH#11135) Charles Blackmon-Luca
将 gpuCI 的
RAPIDS_VER
更新为24.08
(GH#11141)更新
test_groupby_grouper_dispatch
(GH#11144) Richard (Rick) Zamora将
JamesIves/github-pages-deploy-action
从 4.6.0 升级到 4.6.1 (GH#11136)在新
sparse
版本发布后,取消跳过test_array_function_sparse
(GH#11139) James Bourbeau修复
pandas=3
上的test_parse_dates_multi_column
(GH#11132) James Bourbeau不要为已标记的提交草拟发布说明 (GH#11138) Jacob Tomlinson
减少部分P2P重新分块的任务组数量 (GH#8655) Hendrik Makait
将 gpuCI 的
RAPIDS_VER
更新为24.08
(GH#8652)向调度器提交集合元数据 (GH#8612) Florian Jetter
避免多个
WorkerState
sphinx 错误 (GH#8643) James Bourbeau
2024年5月1日¶
亮点¶
NumPy 2.0 支持¶
此版本包含针对即将发布的 NumPy 2.0 版本的兼容性更新。
更多详情请参见 Benjamin Zaitlen 的 GH#11096 和 James Bourbeau 的 GH#11106。
增强的 Zarr 存储支持¶
此版本增加了对 MutableMapping
支持的 Zarr 存储,如 zarr.storage.DirectoryStore
等。
更多详情请参见 Greg M. Fleishman 的 GH#10422。
其他更改
对ML页面进行了小更新 (GH#11129) James Bourbeau
在0.15.2版本中跳过失败的
sparse
测试 (GH#11131) James Bourbeau确保在上游CI构建中安装了每晚构建的
pyarrow
(GH#11121) James Bourbeau添加ML概述文档的初始草稿 (GH#11114) Matthew Rocklin
在 gpuCI 中测试查询计划 (GH#11060) Richard (Rick) Zamora
跳过 NumPy 2.0 测试时避免
pytest
错误 (GH#11110) James Bourbeau在上游CI构建中使用夜间版本的
h5py
(GH#11108) James Bourbeau在上游CI构建中使用夜间版本的
scikit-image
(GH#11107) James Bourbeau将
actions/checkout
从 4.1.4 升级到 4.1.5 (GH#11105)修复后启用parquet追加测试 (GH#11104) Patrick Hoefler
跳过
numpy
2 的fastparquet
测试 (GH#11103) Patrick Hoefler修复了codespell发现的拼写错误 (GH#11097) Dimitri Papadopoulos Orfanos
修复文档构建 (GH#11099) Patrick Hoefler
清理
percentiles_summary
逻辑 (GH#11094) Richard (Rick) Zamora应用
ruff/flake8-implicit-str-concat
规则 ISC001 (GH#11098) Dimitri Papadopoulos Orfanos使用 Python 3.13 修复 Windows 上的时钟 (GH#8642) Victor Stinner
修复 Mac OS (arm64) 上的“打印主机信息” CI 步骤 (GH#8638) Hendrik Makait
2024.5.0¶
亮点¶
此版本主要包含一些小的错误修复。
其他更改
不要链接到
click
intersphinx 开发版本 (GH#11091) M Bussonnier修复了一些
dask-expr
表达式的 API 文档链接 (GH#11092) Patrick Hoefler将
dask-expr
添加到上游构建 (GH#11086) Patrick Hoefler在启用
query-planning
时添加melt
支持 (GH#11088) Richard (Rick) Zamora在
numpy
2 环境中跳过数据帧/产品 (GH#11089) Benjamin Zaitlen添加图表以说明优化器的作用 (GH#11072) Patrick Hoefler
修复
pandas
上游测试 (GH#11085) Patrick Hoefler将
conda-incubator/setup-miniconda
从 3.0.3 升级到 3.0.4 (GH#11084)将
actions/checkout
从 4.1.3 升级到 4.1.4 (GH#11083)修复
pytest
更改后的 CI (GH#11082) Patrick Hoefler修复测试以实现更高效的
dask-expr
实现 (GH#11071) Patrick Hoefler泛化
clear_known_categories
工具 (GH#11059) Richard (Rick) Zamora将
JamesIves/github-pages-deploy-action
从 4.5.0 升级到 4.6.0 (GH#11062)将
release-drafter/release-drafter
从 5 升级到 6 (GH#11063)将
actions/checkout
从 4.1.2 升级到 4.1.3 (GH#11061)更新 GPU CI
RAPIDS_VER
到 24.06,禁用查询规划 (GH#11045) Charles Blackmon-Luca移动测试 (GH#8631) Hendrik Makait
将
actions/checkout
从 4.1.2 升级到 4.1.3 (GH#8628)
2024年4月2日¶
亮点¶
简单的合并实现¶
查询优化器将检查查询,以确定是否需要对 merge(...)
或 groupby(...).apply(...)
进行洗牌。如果在之前的步骤中,DataFrame 已经在相同的列上进行了洗牌,并且中间没有任何操作改变分区布局或每个分区中的相关值,则可以避免洗牌。
>>> result = df.merge(df2, on="a")
>>> result = result.merge(df3, on="a")
查询优化器将识别到``result``之前已经在``”a”``上进行了洗牌,因此在第二次合并操作中仅对``df3``进行洗牌,然后再进行块级合并。
read_parquet
中的自动分区¶
如果从 Parquet 文件读取的单个分区太小,查询优化器将自动重新分区数据集。这将减少分区数量,从而也减少了任务图的大小。
优化器旨在生成至少75MB的分区,并在必要时将多个文件合并以达到此阈值。该值可以通过使用进行配置。
>>> dask.config.set({"dataframe.parquet.minimum-partition-size": 100_000_000})
该值以字节为单位给出。默认阈值相对保守,以避免工作节点上每个线程的内存量相对较小时出现内存问题。
其他更改
添加 GitHub 发布自动化 (GH#11057) Jacob Tomlinson
为新版本添加变更日志条目(GH#11058) Patrick Hoefler
在
_bind_property
中恢复 try/except 块 (GH#11049) Lawrence Mitchell修复查询计划文档的链接 (GH#11054) Patrick Hoefler
为Parquet文件大小添加配置参数 (GH#11052) Patrick Hoefler
为查询优化器添加文档 (GH#11043) Patrick Hoefler
将 np.ma.masked 赋值给对象类型数组 (GH#9627) David Hassell
如果未安装
dask_expr
,请不要报错 (GH#11048) Simon Høxbro Hansen调整
test_set_index
以适应“cudf”后端 (GH#11029) Richard (Rick) Zamora使用
to/from_legacy_dataframe
代替to/from_dask_dataframe
(GH#11025) Richard (Rick) Zamora标记化 bag
groupby
键 (GH#10734) Charles Stern为与点对点相关的调度函数添加延迟“cudf”注册 (GH#11040) Richard (Rick) Zamora
在异常时收集
memray
配置文件 (GH#8625) Florian Jetter确保
inproc
正确模拟序列化协议 (GH#8622) Florian Jetter放松测试统计分析2 (GH#8621) Florian Jetter
当
worker-ttl
过期时重启工作进程 (GH#8538) crusaderky使用
monotonic
进行截止时间测试 (GH#8620) Florian Jetter修复带有注释的已发布期货的竞争条件 (GH#8577) Florian Jetter
如果工作进程因内存压力而重启,则发送日志事件 (GH#8617) Patrick Hoefler
不要在CI中打印xfailed测试 (GH#8619) Florian Jetter
确保工人在参与p2p时不会被缩减 (GH#8610) Florian Jetter
针对稳定的
fsspec
运行 (GH#8615) Florian Jetter
2024年4月1日¶
这是一个小型的错误修复版本,修复了在 Python 3.11.9 中导入 dask.dataframe
时的一个错误。
详情请参见 Richard (Rick) Zamora 的 GH#11035 和 GH#11039。
其他更改
移除命名聚合的跳过 (GH#11036) Patrick Hoefler
在反序列化时不要深度复制只读缓冲区 (GH#8609) crusaderky
将
dask-expr
添加到dask
conda 配方中 (GH#8601) Charles Blackmon-Luca
2024.4.0¶
亮点¶
查询计划修复¶
此版本包含Dask DataFrame新查询计划器中的各种错误修复。
GPU 指标仪表板修复¶
GPU 内存和利用率仪表盘功能已恢复。之前这些图表无意中被留空。
详情请参见 Benjamin Zaitlen 的 GH#8572。
其他更改
在标签发布时构建夜间版本 (GH#11014) Charles Blackmon-Luca
从测试套件中移除
xfail
回溯 (GH#11028) Patrick Hoefler修复上游
pandas
更改的 CI (GH#11027) Patrick Hoefler修复
value_counts
在分支仅包含 nans 时引发的错误 (GH#11023) Patrick Hoefler在
dask_cudf
中启用自定义表达式 (GH#11013) Richard (Rick) Zamora当无法导入
dask-expr
时,引发ImportError
而不是ValueError
(GH#11007) James Lamb将 HypersSpy 添加到
ecosystem.rst
(GH#11008) Jonas Lähnemann将 Hugging Face
hf://
添加到fsspec
兼容的远程服务列表中 (GH#11012) Quentin Lhoest将
actions/checkout
从 4.1.1 升级到 4.1.2 (GH#11009)刷新注释和跨度的文档 (GH#8593) crusaderky
修复来自
pandas
的弃用警告 (GH#8564) Patrick Hoefler将 Python 3.11 添加到 GPU CI 矩阵 (GH#8598) Charles Blackmon-Luca
使用单调计时器的截止时间 (GH#8597) crusaderky
将 gpuCI 的
RAPIDS_VER
更新为24.06
(GH#8588)重构
restart()
和restart_workers()
(GH#8550) crusaderky将
actions/checkout
从 4.1.1 升级到 4.1.2 (GH#8587)在失败的
sizeof
警告中包含类型 (GH#8580) James Bourbeau
2024年3月1日¶
这是一个小版本发布,主要是在升级时,如果未安装 dask-expr
,则将异常降级为警告。
其他更改
只有在
dask-expr
未安装时发出警告 (GH#11003) Florian Jetter修复由 codespell 发现的拼写错误 (GH#10993) Dimitri Papadopoulos Orfanos
禁用
dask-expr
的额外 CI 作业 (GH#8583) crusaderky修复不稳定的
test_restart_waits_for_new_workers
(GH#8573) crusaderky修复不稳定的
test_raise_on_incompatible_partitions
(GH#8571) crusaderky
2024.3.0¶
发布于2024年3月11日
亮点¶
查询规划¶
此版本默认启用了 dask.dataframe
所有用户的查询计划功能。
查询规划功能代表了使用 dask-expr
对 DataFrame
的重写。这是一个即插即用的替代方案,我们预计大多数用户不需要调整他们的代码。任何反馈可以在 Dask 的 问题追踪器 上报告,或者在 查询规划反馈问题 上提交。
如果你遇到任何问题,你仍然可以通过设置来选择退出。
>>> import dask
>>> dask.config.set({'dataframe.query-planning': False})
Pandas 1.X 支持的落日¶
新的查询规划后端至少需要 pandas 2.0
版本。如果你通过 conda 安装,或者使用 dask[complete] 或 dask[dataframe] 从 pip 安装,pandas 版本将自动安装。
如果你在没有额外安装的情况下安装 dask
,遗留的 DataFrame 实现仍然支持 pandas 1.X
。
其他更改
使用 dask-expr 更新 pandas 夜间测试 (GH#10989) Patrick Hoefler
使用 dask-expr 文档作为 DataFrame 的主要参考文档 (GH#10990) Patrick Hoefler
调整 dask-expr 的 from_array 测试 (GH#10988) Patrick Hoefler
取消跳过
to_delayed
测试 (GH#10985) Patrick Hoefler将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.3 (GH#10978)
修复启用 dask-expr 时的错误 (GH#10977) Patrick Hoefler
更新 dask-expr 的文档和需求并移除警告 (GH#10976) Patrick Hoefler
修复 numpy 2 与 ogrid 使用的兼容性 (GH#10929) David Hoese
打开 dask-expr 开关 (GH#10967) Patrick Hoefler
强制使用相同的字节顺序解释初始化随机种子… (GH#10970) Elliott Sales de Andrade
在读取CSV时使用正确的行终止符编码 (GH#10972) Elliott Sales de Andrade
perf: 在 _optimize_blockwise 中不要不必要地重新计算输入/输出索引 (GH#10966) Lindsey Gray
调整 dask-expr 中字符串选项的测试 (GH#10968) Patrick Hoefler
调整 dask-expr 中数组转换的测试 (GH#10973) Patrick Hoefler
TST: 修复32位上的sizeof测试 (GH#10971) Elliott Sales de Andrade
TST: 为 pyarrow 添加缺失的跳过 (GH#10969) Elliott Sales de Andrade
为
bag.to_dataframe
实现 dask-expr 转换 (GH#10963) Patrick Hoefler清理
dask.config
的 Sphinx 文档 (GH#10959) crusaderky在 Python 3.12+ 上使用标准库
importlib.metadata
(GH#10955) wim glenn将 partitioning_index 转换为更小的尺寸 (GH#10953) Florian Jetter
重用 dask/dask 分组聚合 (GH#10952) Patrick Hoefler
确保期货上的代币是唯一的 (GH#8569) Florian Jetter
不要掩盖良好的性能指标失败 (GH#8568) crusaderky
在 dask-expr 中标记 shuffle 快速任务 (GH#8563) crusaderky
按持续时间衡量 Gilknocker Prometheus 指标 (GH#8558) crusaderky
修复 memory->erred 上的调度器转换错误 (GH#8549) Hendrik Makait
修复不稳定的 test_Future_release_sync (GH#8562) crusaderky
修复不稳定的 test_flaky_connect_recover_with_retry (GH#8556) Hendrik Makait
在 scheduler.py 中进行类型调整 (GH#8551) crusaderky
将 conda-incubator/setup-miniconda 从 3.0.2 升级到 3.0.3 (GH#8553)
在CI上安装dask-expr (GH#8552) Hendrik Makait
P2P shuffle 可以在写入磁盘之前删除分区列 (GH#8531) Hendrik Makait
改进工作器移除的日志记录 (GH#8517) crusaderky
添加指示器支持以进行合并 (GH#8539) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.2 (GH#8535)
获取模块路径时避免迭代错误 (GH#8533) James Bourbeau
在代码收集时忽略标准库的 threading 模块 (GH#8532) James Bourbeau
修复P2P重试时的过度日志记录 (GH#8511) Hendrik Makait
防止 retire_workers 参数中的拼写错误 (GH#8524) crusaderky
对 test_steal 进行美化清理(从 #8185 回溯) (GH#8509) crusaderky
修复不稳定的 test_compute_per_key (GH#8521) crusaderky
修复不稳定的 test_no_workers_timeout_queued (GH#8523) crusaderky
2024年2月1日¶
发布于2024年2月23日
亮点¶
允许静默 dask.DataFrame 弃用警告¶
上一个版本包含了一个 DeprecationWarning
,它提醒用户即将切换 dask.dafaframe
以使用支持查询计划的新后端(另见 GH#10934)。
此 DeprecationWarning
在导入 dask.dataframe
模块时触发,社区对此过于冗长表示担忧。
现在可以静音此警告
# via Python
>>> dask.config.set({'dataframe.query-planning-warning': False})
# via CLI
dask config set dataframe.query-planning-warning False
更强大的分布式调度器,用于处理罕见的关键冲突¶
块级融合优化可能会导致任务键冲突,该冲突未被分布式调度器正确处理(参见 GH#9888)。用户通常会通过看到导致系统死锁或严重故障的各种内部异常来注意到这一点。虽然此问题无法修复,但调度器现在实现了一种机制,该机制应能缓解大多数情况,并在检测到问题时发出警告。
详情请参见 crusaderky 和 Florian Jetter 的 GH#8185。
在这过程中,tokenization
已经实施了各种改进。详情请参见 GH#10913, GH#10884, GH#10919, GH#10896 以及主要来自 crusaderky 的 GH#10883。
在大规模集群上更强大的自适应缩放¶
自适应缩放在之前如果需要移动许多任务进行缩减时可能会丢失数据。这通常(但不限于)发生在大规模集群上,表现为任务的重新计算,并可能导致集群在扩展和缩减之间振荡而无法完成。
更多详情请参见 crusaderky 的 GH#8522。
其他更改
移除不稳定的 fastparquet 测试 (GH#10948) Patrick Hoefler
启用来自 dask-expr 的聚合 (GH#10947) Patrick Hoefler
更新 dask-expr 中分配更改的测试 (GH#10944) Patrick Hoefler
调整以适应 pandas 大字符串更改 (GH#10942) Patrick Hoefler
修复不稳定的 test_describe_empty (GH#10943) crusaderky
使用 Python 3.12 作为参考环境 (GH#10939) crusaderky
[Cosmetic] 清理 test_config.py 中的临时路径 (GH#10938) crusaderky
[CLI]
dask config set
和dask config find
更新。(GH#10930) Miles当一个块充满NaN时使用combine_first (GH#10932) crusaderky
正确解析CLI中的小写true/false配置 (GH#10926) crusaderky
dask config get
修复了打印 None 值的问题 (GH#10927) crusaderky查询规划不能为空 (GH#10928) crusaderky
再次加快 nunique 的速度 (GH#10922) Patrick Hoefler
清理了一些 Cython 警告处理 (GH#10924) crusaderky
将 pre-commit/action 从 3.0.0 升级到 3.0.1 (GH#10920)
提高并避免提供给 P2P 洗牌的元数据丢失是错误的 (GH#8520) Florian Jetter
修复 gpuci: np.product 已被弃用 (GH#8518) crusaderky
将 gpuCI 的
RAPIDS_VER
更新为24.04
(GH#8471)在 Python 3.12 上取消固定 ipywidgets (GH#8516) crusaderky
在 run_spec 冲突时保留旧依赖 (GH#8512) crusaderky
微小的mypy修复 (GH#8513) crusaderky
确保大负载可以被序列化并通过通讯发送 (GH#8507) Florian Jetter
允许配置大型图警告阈值 (GH#8508) Florian Jetter
与分词相关的测试调整(从 #8185 回溯)(GH#8499) crusaderky
对
update_graph
的调整(从 #8185 回传) (GH#8498) crusaderkyAMM: 测试增量退休 (GH#8501) crusaderky
在CI中抑制dask-expr警告 (GH#8505) crusaderky
在CI中忽略dask-expr警告 (GH#8504) James Bourbeau
改进P2P稳定排序的测试 (GH#8458) Hendrik Makait
将 pre-commit/action 从 3.0.0 升级到 3.0.1 (GH#8503)
2024.2.0¶
发布于2024年2月9日
亮点¶
弃用 Dask DataFrame 实现¶
当前的 Dask DataFrame 实现已被弃用。在未来的版本中,Dask DataFrame 将使用包含多项改进的新实现,包括逻辑查询计划。面向用户的 DataFrame API 将保持不变。
新的实现已经可用,可以通过安装 dask-expr
库来启用:
$ pip install dask-expr
并开启查询规划选项:
>>> import dask
>>> dask.config.set({'dataframe.query-planning': True})
>>> import dask.dataframe as dd
新实现的API文档可在 http://www.aidoczh.com/dask/en/stable/dataframe-api.html 获取
任何反馈都可以在 Dask 问题跟踪器 https://github.com/dask/dask/issues 上报告。
详情请参见 Patrick Hoefler 的 GH#10912。
改进的分词¶
此版本包含了对 Dask 对象令牌化逻辑的若干改进。现在更多对象生成确定性令牌,这可以通过缓存中间结果来提高性能。
详情请参见 crusaderky 的 GH#10898, GH#10904, GH#10876, GH#10874, 和 GH#10865。
其他更改
修复字符串转换中对只读数组的就地修改 (GH#10886) Patrick Hoefler
为
dask-expr
添加变更日志条目 (GH#10915) Patrick Hoefler修复
cudf
的leftsemi
合并 (GH#10914) Patrick Hoefler对
dask-expr
警告的轻微更新 (GH#10916) James Bourbeau改进
groupby.nunique
的性能 (GH#10910) Patrick Hoefler在
dask-expr
中为leftsemi
合并添加配置 (GH#10908) Patrick Hoefler调整
dask-expr
的分配测试 (GH#10907) Patrick Hoefler在GPU CI的
test_to_datetime
中避免使用pytest.warns
(GH#10902) Richard (Rick) Zamora更新文档首页的部署选项 (GH#10901) James Bourbeau
修复数据框文档中的拼写错误 (GH#10900) Matthew Rocklin
将
peter-evans/create-pull-request
从 5 升级到 6 (GH#10894)修复 mimesis API
>=13.1.0
- 使用random.randint
(GH#10888) Miles调整无效测试 (GH#10897) Patrick Hoefler
Pickle
da.argwhere
和da.count_nonzero
(GH#10885) crusaderky修复
dask-expr
测试后单例 pr (GH#10892) Patrick Hoefler为新的parquet缓存添加了几个``dask-expr``修复 (GH#10880) Florian Jetter
更新部署文档 (GH#10882) Matthew Rocklin
从
dask-expr
文档构建开始 (GH#10879) Patrick Hoefler测试静态方法和类方法的标记化 (GH#10872) crusaderky
在API文档中添加
distributed.print
和distributed.warn
(GH#10878) James Bourbeau在M1架构上运行macos ci (GH#10877) Patrick Hoefler
更新
dask-expr
的测试 (GH#10838) Patrick Hoefler更新 parquet 测试以与
dask-expr
修复 (GH#10851) 保持一致 Richard (Rick) Zamora修复
test_graph_manipulation
中的回归问题 (GH#10873) crusaderky调整
pytest
错误以适应 dask-expr ci (GH#10871) Patrick Hoefler从
pyproject.toml
中移除警告过滤器 (GH#10867) Patrick Hoefler跳过
test_append_with_partition
以使用 fastparquet (GH#10828) Patrick Hoefler修复
pytest
8 个问题 (GH#10868) Patrick Hoefler调整
dask-expr
中Groupby.aggregate
对中位数支持的测试 (2/2) (GH#10870) Hendrik Makait在
sort_values
中允许升序的长度大于一 (GH#10864) Florian Jetter允许在 Python 3.9 中引发其他消息 (GH#10862) Hendrik Makait
在病理情况下获取计算代码时不要崩溃 (GH#8502) James Bourbeau
将
peter-evans/create-pull-request
从 5 升级到 6 (GH#8494)修复
cudf
溢出指标的测试 (GH#8478) Mads R. B. Kristensen升级到
pytest
8 (GH#8482) crusaderky修复
test_two_consecutive_clients_share_results
(GH#8484) crusaderky
2024年1月1日¶
发布于2024年1月26日
亮点¶
Pandas 2.2 和 Scipy 1.12 支持¶
此版本包含针对最新 pandas
和 scipy
版本的兼容性更新。
详情请参见 crusaderky 的 GH#10834, GH#10849, GH#10845, 和 GH#8474。
弃用¶
在大多数 DataFrame 方法中弃用
out=
和dtype=
参数 (GH#10800) crusaderky
其他更改
将推荐的部署选项添加到部署文档中 (GH#10866) James Bourbeau
改进
_agg_finalize
以符合输出预期 (GH#10835) Hendrik Makait为 hlg 实现确定性分词 (GH#10817) Patrick Hoefler
重构:将
tokenize()
的测试移至其自己的模块 (GH#10863) crusaderky更新 DataFrame 示例部分 (GH#10856) James Bourbeau
暂时固定
mimesis<13.1.0
(GH#10860) James Bourbeau对
_testing.py
进行了微小的外观调整(GH#10857) crusaderky取消跳过并调整使用
dask-expr
的groupby
-聚合median
的测试 (GH#10832) Hendrik Makait在上游CI中修复
sizeof(pd.MultiIndex)
的测试 (GH#10850) crusaderkynumpy
2.0: 修复uint64
数组的切片 (GH#10854) crusaderky将
numpy
版本常量重命名为与pandas
匹配 (GH#10843) crusaderky将
actions/cache
从 3 升级到 4 (GH#10852)将 gpuCI
RAPIDS_VER
更新为24.04
(GH#10841)修复doctest中的弃用问题 (GH#10844) crusaderky
在
numpy
2.x 中更改了dtype
算术 (GH#10831) crusaderky调整
dask-expr
中median
支持的测试 (GH#10839) Patrick Hoefler调整
dask-expr
中groupby-aggregate
对median
支持的测试 (GH#10840) Hendrik Makaitnumpy
2.x: 修复MaskedArray
上的std()
(GH#10837) crusaderky如果测试失败,则失败
dask-expr
ci (GH#10829) Patrick Hoefler在导出测试时激活
query_planning
(GH#10833) Patrick Hoefler公开数据框测试 (GH#10830) Patrick Hoefler
numpy
2: n 维fft
函数中的弃用 (GH#10821) crusaderky为
dask-expr
泛化CreationDispatch
(GH#10794) Richard (Rick) Zamora修复更多测试以使用
pytest.warns()
(GH#10818) Michał Górnynp.unique()
: 逆向在numpy
2 (GH#10819) crusaderky将
test_split_adaptive_files
固定到pyarrow
引擎 (GH#10820) Patrick Hoefler调整
dask/dask
中的剩余测试 (GH#10813) Patrick Hoefler仅限于 Arrow 的测试 (GH#10814) Patrick Hoefler
从
std
测试中过滤警告 (GH#10815) Patrick Hoefler调整大部分索引测试 (GH#10790) Patrick Hoefler
部署文档更新 (GH#10778) Sarah Charlotte Johnson
调整
test_to_datetime
以兼容dask-expr
Hendrik Makait上游CI调整 (GH#10806) crusaderky
改进
to_numeric
的测试 (GH#10804) Hendrik Makait处理矩阵子类的序列化 (GH#8480) Florian Jetter
在P2P中使用最小的数据类型作为分区列 (GH#8479) Florian Jetter
pandas
2.2: 修复test_dataframe_groupby_tasks
(GH#8475) crusaderky将
actions/cache
从 3 升级到 4 (GH#8477)pandas
2.2 与pyarrow
14: 已弃用DatetimeTZBlock
(GH#8476) crusaderkypandas
2.2.0: 弃用频率别名M
以支持ME
(GH#8473) Hendrik Makait修复文档构建 (GH#8472) Hendrik Makait
修复基于P2P的连接与显式
npartitions
(GH#8470) Hendrik MakaitNit: 在测试报告环境中硬编码Python版本 (GH#8462) crusaderky
替换所有
sys.is_finalizing
的出现 (GH#8449) Florian Jetter
2024.1.0¶
发布于2024年1月12日
亮点¶
P2P 中的部分重新分块¶
P2P 重新分块现在利用了输入和输出块之间的关系。对于不需要全对全数据传输的情况,这可能会显著减少运行时间和内存/磁盘占用。它还支持任务剔除。
详情请参见 Hendrik Makait 的 GH#8330。
Fastparquet 引擎已弃用¶
fastparquet
Parquet 引擎已被弃用。用户应通过 安装 PyArrow 并移除 read_parquet
或 to_parquet
调用中的 engine="fastparquet"
来迁移到 pyarrow
引擎。
详情请参见 crusaderky 的 GH#10743。
改进了对任意数据的序列化¶
此版本改进了对任意数据的序列化鲁棒性。之前在某些情况下,序列化非 msgpack
可序列化的数据时可能会失败。现在在这些情况下,我们改为使用 pickle
。
详情请参见 Hendrik Makait 的 GH#8447。
额外的弃用¶
弃用
shuffle
关键字,改为使用shuffle_method
作为 DataFrame 方法 (GH#10738) Hendrik Makait在
repartition
中弃用自动参数推断 (GH#10691) Patrick Hoefler弃用
set_index
和sort_values
的npartitions="auto"
(GH#10750) Miles
其他更改
避免在任务洗牌中使用导致数据丢失的快捷方式 (GH#10763) Patrick Hoefler
在排序时忽略数据任务 (GH#10706) Florian Jetter
从
dask-expr
添加get_dummies
(GH#10791) Patrick Hoefler调整
dask-expr
迁移的 IO 测试 (GH#10776) Patrick Hoefler移除
groupby
中关于sort
和split_out
的弃用警告 (GH#10788) Patrick Hoefler解决
pandas
的弃用问题 (GH#10789) Patrick Hoefler在
get_scheduler
中仅导入distributed
一次 (GH#10771) Florian Jetter简化 GitHub 操作 (GH#10781) crusaderky
清理CI中的冗余部分 (GH#10768) crusaderky
更新
ufunc
的测试 (GH#10773) Patrick Hoefler使用
pytest.mark.skipif(DASK_EXPR_ENABLED)
(GH#10774) crusaderky调整
dask-expr
的随机测试 (GH#10759) Patrick Hoefler修复了来自
pandas
的一些弃用警告 (GH#10749) Patrick Hoefler调整
dask-expr
的随机测试 (GH#10762) Patrick Hoefler更新
pre-commit
(GH#10767) Hendrik Makait在CI中清理配置开关 (GH#10766) crusaderky
改进
validate_key
的异常 (GH#10765) Hendrik Makait在
set_index
中处理未知的datetimeindexes
分割 (GH#10757) Patrick Hoefler为小数添加哈希 (GH#10758) Patrick Hoefler
审查
is_monotonic
的测试 (GH#10756) crusaderky在
value_counts_aggregate
中更改参数顺序 (GH#10751) Patrick Hoefler调整
dask-expr
的一些 groupby 测试 (GH#10752) Patrick Hoefler将 mimesis 限制在
< 12
以适应 3.9 构建 (GH#10755) Patrick Hoefler不要在跳过条件中评估配置 (GH#10753) Patrick Hoefler
调整一些测试以兼容
dask-expr
(GH#10714) Patrick Hoefler使
dask.array.utils
函数更通用到其他 Dask 数组 (GH#10676) Matthew Rocklin删除重复的“单机”部分 (GH#10747) Matthew Rocklin
调整 ORC
engine=
参数 (GH#10746) crusaderky在文档首页添加任务图动画 (GH#10730) Sarah Charlotte Johnson
使用新的 Xarray 标志 (GH#10729) James Bourbeau
更新“10分钟了解Dask”页面上的标签样式 (GH#10728) James Bourbeau
在CI中更新环境文件上传步骤 (GH#10726) James Bourbeau
如果
split_out>1
,不要在 GroupBy.nunqiue 中重复未观察到的类别 (GH#10716) Patrick Hoeflerdask.order
更新的变更日志条目 (GH#10715) Florian Jetter在
_check_dsk
中放松冗余键检查 (GH#10701) Richard (Rick) Zamora恢复
pickle
更改 (GH#8456) Florian Jetter为P2P洗牌保持稳定的顺序 (GH#8453) Hendrik Makait
允许维护者手动调度测试工作流 (GH#8445) Erik Sundell
将调度器相关的转换功能设为私有 (GH#8448) Hendrik Makait
更新
pre-commit
钩子 (GH#8444) Hendrik Makait在序列化时不要总是检查
__main__ in result
(GH#8443) Florian Jetter仅在实现时将
wait_for_workers
委托给集群实例 (GH#8441) Erik Sundell在
test_pandas
中延长睡眠时间 (GH#8440) Julian Gilbey避免使用已弃用的
shuffle
关键字 (GH#8439) Hendrik MakaitShuffle 指标 4/4: 移除定制诊断 (GH#8367) crusaderky
不要在测试套件中运行
gilknocker
(GH#8423) Florian Jetter调整
abstractmethods
(GH#8427) crusaderkyShuffle 指标 3/4: 捕获背景指标 (GH#8366) crusaderky
洗牌指标 2/4:添加背景指标 (GH#8365) crusaderky
洗牌指标 1/4: 添加前景指标 (GH#8364) crusaderky
将
actions/upload-artifact
从 3 升级到 4 (GH#8420)修复
test_merge_p2p_shuffle_reused_dataframe_with_different_parameters
(GH#8422) Hendrik Makait改进P2P调度器插件中的日志记录 (GH#8410) Hendrik Makait
重新启用
test_decide_worker_coschedule_order_neighbors
(GH#8402) Florian Jetter将cuDF溢出统计信息添加到RMM/GPU内存图中 (GH#8148) Charles Blackmon-Luca
修复Nanny启动的worker的哈希不一致问题 (GH#8400) Charles Stern
如果工作线程正在运行长时间运行的任务(例如
worker_client
),则不允许其缩减 (GH#7481) Florian Jetter修复不稳定的
test_subprocess_cluster_does_not_depend_on_logging
(GH#8417) crusaderky
2023.12.1¶
发布于2023年12月15日
亮点¶
逻辑查询计划现可用于 Dask DataFrames¶
Dask DataFrames 现在通过使用逻辑查询计划器性能得到了很大提升。此功能目前默认关闭,但可以通过以下方式开启:
dask.config.set({"dataframe.query-planning": True})
您还需要安装 dask-expr
:
pip install dask-expr
到目前为止,我们已经看到了有希望的性能提升,更多信息请参见 这篇博客文章 和 这些定期更新的基准测试。关于查询优化器如何工作的更详细解释可以在 这篇博客文章 中找到。
此功能仍在积极开发中,API 尚未稳定,因此可能会发生重大变化。我们预计将在明年年初将查询优化器设为默认。
详情请参见 Patrick Hoefler 的 GH#10634。
read_parquet
中的Dtype推断¶
read_parquet
现在会将 Arrow 类型 pa.date32()
, pa.date64()
和 pa.decimal()
推断为 pandas 中的 ArrowDtype
。这些数据类型由原始的 Arrow 数组支持,因此避免了转换为 NumPy 对象。此外,read_parquet
将不再将嵌套和二进制类型推断为字符串,它们将被存储在 NumPy 对象数组中。
详情请参见 Patrick Hoefler 的 GH#10698 和 GH#10705。
调度改进以减少内存使用¶
此版本对调度逻辑的核心部分进行了重大重写。它包括在 dask.order
中对拓扑排序算法的新方法,该算法决定了任务的运行顺序。不当的排序被认为是导致集群内存压力过大的主要原因。
此版本更新修复了在 2023.10.0
版本中引入的一些性能退化问题(参见 GH#10535)。通常情况下,计算现在会更加积极地释放数据,如果这些数据不再需要在内存中保留的话。
详情请参见 Florian Jetter 的 GH#10660, GH#10697。
改进的基于P2P的合并鲁棒性和性能¶
此版本包含多个更新,修复了2023.9.2版本中可能引入的死锁问题,并增强了集群动态扩展时基于P2P合并的鲁棒性。
详情请参见 Hendrik Makait 的 GH#8415, GH#8416, 和 GH#8414。
已移除禁用 pickle 选项¶
distributed.scheduler.pickle
配置选项不再支持。自2023.4.0版本起,pickle
用于传输任务图,因此不能再被禁用。现在,当 distributed.scheduler.pickle
设置为 False
时,我们会引发一个信息性的错误。
详情请参见 Florian Jetter 的 GH#8401。
其他更改
为最近的P2P合并修复添加变更日志条目 (GH#10712) Hendrik Makait
更新 DataFrame 页面 (GH#10710) Matthew Rocklin
为
dask-expr
切换添加变更日志条目 (GH#10704) Patrick Hoefler改进
PipInstall
更改的变更日志条目 (GH#10711) Hendrik Makait移除 PR 标签器 (GH#10709) James Bourbeau
向
Delayed
对象添加.__wrapped__
(GH#10695) Andrew S. Rosen将
actions/labeler
从 4.3.0 升级到 5.0.0 (GH#10689)将
actions/stale
从 8 升级到 9 (GH#10690)[Dask.order] 从排序中移除非可运行的叶子节点 (GH#10697) Florian Jetter
更新安装文档 (GH#10699) Matthew Rocklin
修复文档中的软件环境链接 (GH#10700) James Bourbeau
避免将非字符串转换为箭头字符串以读取parquet文件 (GH#10692) Patrick Hoefler
将
xarray-contrib/issue-from-pytest-log
从 1.2.7 升级到 1.2.8 (GH#10687)文档更新,修复样式,提及免费 (GH#10679) Matthew Rocklin
更新部署文档 (GH#10680) Matthew Rocklin
使用关键路径方法重写 Dask.order (GH#10660) Florian Jetter
避免替换多次出现的键 (GH#10646) Florian Jetter
添加缺失的图片到文档 (GH#10694) Matthew Rocklin
将
actions/setup-python
从 4 升级到 5 (GH#10688)更新着陆页 (GH#10674) Matthew Rocklin
在调度中简化元检查 (GH#10638) Patrick Hoefler
Pin PR 标签器 (GH#10675) Matthew Rocklin
稍微重新组织文档索引 (GH#10669) Matthew Rocklin
将
actions/setup-java
从 3 升级到 4 (GH#10667)将
conda-incubator/setup-miniconda
从 2.2.0 升级到 3.0.1 (GH#10668)将
xarray-contrib/issue-from-pytest-log
从 1.2.6 更新到 1.2.7 (GH#10666)修复
test_categorize_info
与 nightlypyarrow
(GH#10662) James Bourbeau重写
test_subprocess_cluster_does_not_depend_on_logging
(GH#8409) Hendrik Makait在
SpillBuffer
中未能 pickle 键时避免RecursionError
并使用tblib=3
(GH#8404) Hendrik Makait允许任务覆盖
is_rootish
启发式 (GH#8412) Hendrik Makait移除 GPU 执行器 (GH#8399) Hendrik Makait
不要依赖于子进程集群的日志记录 (GH#8398) Hendrik Makait
将 gpuCI 的
RAPIDS_VER
更新为24.02
(GH#8384)将
actions/setup-python
从 4 升级到 5 (GH#8396)确保在P2P重新分块中的输出块均匀分布 (GH#8207) Florian Jetter
琐事:修正拼写错误 (GH#8395) crusaderky
将
JamesIves/github-pages-deploy-action
从 4.4.3 升级到 4.5.0 (GH#8387)将
conda-incubator/setup-miniconda from
从 3.0.0 升级到 3.0.1 (GH#8388)
2023.12.0¶
发布于2023年12月1日
亮点¶
Pip安装 重启和环境变量¶
distributed.PipInstall
插件现在具有更强大的重启逻辑,并且还支持 环境变量。
下面展示了用户如何使用 distributed.PipInstall
插件和一个 TOKEN
环境变量来安全地从私有仓库安装包:
from dask.distributed import PipInstall
plugin = PipInstall(packages=["private_package@git+https://${TOKEN}@github.com/dask/private_package.git])
client.register_plugin(plugin)
详情请参见 Hendrik Makait 的 GH#8374、GH#8357 和 GH#8343。
Bokeh 3.3.0 兼容性¶
此版本包含与使用 bokeh>=3.3.0
和代理 Dask 仪表板的兼容性更新。以前,仪表板图表的内容不会显示。
详情请参见 Jacob Tomlinson 的 GH#8347 和 GH#8381。
其他更改
在
test_pyarrow_filesystem_option_real_data
中添加network
标记 (GH#10653) Richard (Rick) Zamora将 GPU CI 升级到 CUDA 11.8 (GH#10656) Charles Blackmon-Luca
确定性地标记
pandas
偏移量 (GH#10643) Patrick Hoefler添加 tokenize
pd.NA
功能 (GH#10640) Patrick Hoefler将 gpuCI
RAPIDS_VER
更新为24.02
(GH#10636)为
DataFrame.clip
和Series.clip
添加axis
参数 (GH#10616) Richard (Rick) Zamora更新内存中重新分块的变更日志条目 (GH#10630) Florian Jetter
修复不稳定的
test_resources_reset_after_cancelled_task
(GH#8373) crusaderky将 GPU CI 升级到 CUDA 11.8 (GH#8376) Charles Blackmon-Luca
将
conda-incubator/setup-miniconda
从 2.2.0 升级到 3.0.0 (GH#8372)向P2P调度器插件添加调试日志 (GH#8358) Hendrik Makait
O(1)
访问/info/task/
端点 (GH#8363) crusaderky从 shuffle 注解中移除字符串化 (GH#8362) crusaderky
不要将
int
指标转换为float
(GH#8361) crusaderky删除 asyncio TCP 后端 (GH#8355) Florian Jetter
为
context_meter.add_callback
添加卸载支持 (GH#8360) crusaderky测试
sync()
传播 contextvars (GH#8354) crusaderkycaptured_context_meter
(GH#8352) crusaderkycontext_meter.clear_callbacks
(GH#8353) crusaderky使用
@log_errors
装饰器 (GH#8351) crusaderky修复
test_statistical_profiling_cycle
(GH#8356) Florian JetterShuffle: 不要在每次RPC时解析dask.config (GH#8350) crusaderky
将
Client.register_plugin
的idempotent
参数替换为插件上的.idempotent
属性 (GH#8342) Hendrik Makait修复测试报告生成 (GH#8346) Hendrik Makait
在
mindeps-pandas
CI 上安装pyarrow-hotfix
(GH#8344) Hendrik Makait更新
pre-commit
代码检查工具 (GH#8340) crusaderky使用显式
dtype=object
更新 cuDF 测试 (GH#8339) Peter Andreas Entschev修复
Cluster
/SpecCluster
调用异步关闭方法 (GH#8327) Peter Andreas Entschev
2023.11.0¶
发布于2023年11月10日
亮点¶
零拷贝 P2P 数组重新分块¶
使用内存中P2P数组重新分块时,用户应看到显著的性能提升。这是由于不再复制底层数据缓冲区。
下面展示了一个简单的示例,我们比较了不同重新分块方法的性能。
shape = (30_000, 6_000, 150) # 201.17 GiB
input_chunks = (60, -1, -1) # 411.99 MiB
output_chunks = (-1, 6, -1) # 205.99 MiB
arr = da.random.random(size, chunks=input_chunks)
with dask.config.set({
"array.rechunk.method": "p2p",
"distributed.p2p.disk": True,
}):
(
da.random.random(size, chunks=input_chunks)
.rechunk(output_chunks)
.sum()
.compute()
)
详情请参见 crusaderky 的 GH#8282, GH#8318, GH#8321 以及 Hendrik Makait 的 (GH#8322)。
弃用 PyArrow <14.0.1¶
pyarrow<14.0.1
的使用从本版本开始已被弃用。建议所有用户升级他们的 pyarrow
版本或安装 pyarrow-hotfix
。详情请参阅 此 CVE。
详情请参见 Florian Jetter 的 GH#10622。
改进了用于 Parquet 的 PyArrow 文件系统¶
在读取 Parquet 数据集时使用 filesystem="arrow"
现在可以正确推断访问远程云托管数据时的正确云区域。
详情请参见 Richard (Rick) Zamora 的 GH#10590。
改进P2P混洗中的类型协调¶
详情请参见 Hendrik Makait 的 GH#8332。
其他更改
将最小
click
版本提升至>=8.1
(GH#10623) Jacob Tomlinson避免碎片化 DataFrame 的
PerformanceWarning
(GH#10621) Patrick Hoefler在GPU CI更新工作流中泛化计算
NEW_*_VER
(GH#10610) Charles Blackmon-Luca切换到更新的 GPU CI 镜像 (GH#10608) Charles Blackmon-Luca
在
fsspec
测试中移除双斜杠 (GH#10605) Mario Šaško重新启用
test_ucx_config_w_env_var
(GH#8272) Peter Andreas Entschev在从网络接收时不共享
host_array
(GH#8308) crusaderky在GPU CI更新工作流中泛化``NEW_*_VER``的计算 (GH#8319) Charles Blackmon-Luca
切换到更新的 GPU CI 镜像 (GH#8316) Charles Blackmon-Luca
对shuffle仪表板的小更新 (GH#8315) Matthew Rocklin
不要使用
bytearray().join
(GH#8312) crusaderky在P2P哈希连接中重用相同的洗牌 (GH#8306) Hendrik Makait
2023.10.1¶
发布于2023年10月27日
亮点¶
Python 3.12¶
此版本正式添加了对 Python 3.12 的支持。
详情请参见 Thomas Grainger 的 GH#10544 和 GH#8223。
其他更改
避免过于激进地将parquet文件分割为行组 (GH#10600) Matthew Rocklin
加速
normalize_chunks
以适应常见情况 (GH#10579) Martin Durant使用 Python 3.11 进行上游和 doctests CI 构建 (GH#10596) Thomas Grainger
将
actions/checkout
从 4.1.0 升级到 4.1.1 (GH#10592)切换到 PyTables
HEAD
(GH#10580) Thomas Grainger移除
numpy.core
警告过滤器,链接至pyarrow
引起的BlockManager
警告 (GH#10571) Thomas Grainger取消忽略并修复已弃用的频率别名 (GH#10577) Thomas Grainger
将
register_assert_rewrite
在conftest
中提前以修复警告 (GH#10578) Thomas Grainger将
versioneer
升级到 0.29 (GH#10575) Thomas Grainger将
test_concat_categorical
改为非严格模式 (GH#10574) Thomas Grainger使用 NumPy 2.0 启用 SciPy 测试 Thomas Grainger
启用 scikit-image 的 NumPy 2.0 测试 (GH#10569) Thomas Grainger
修复上游构建 (GH#10549) Thomas Grainger
为
drop_duplicates
添加优化的代码路径 (GH#10542) Richard (Rick) Zamora在
dd.DataFrame.sort_values
中支持cudf
后端 (GH#10551) Richard (Rick) Zamora将图表标签中的“GIL Contention”重命名为“GIL” (GH#8305) Matthew Rocklin
将
actions/checkout
从 4.1.0 升级到 4.1.1 (GH#8299)修复仪表盘 (GH#8293) Hendrik Makait
@log_errors
用于异步任务 (GH#8294) crusaderky为 serialize_bytes 添加注解和更好的测试 (GH#8300) crusaderky
暂时将
test_decide_worker_coschedule_order_neighbors
标记为 xfail 以解除 CI 阻塞 (GH#8298) James Bourbeau在代码示例中跳过
xdist
和matplotlib
(GH#8290) Matthew Rocklin在
numpy>=2.dev0
上使用numpy._core
(GH#8291) Thomas Grainger修复
MemoryShardsBuffer.bytes_read
的计算 (GH#8289) crusaderky允许 P2P 在内存中存储数据 (GH#8279) Hendrik Makait
将
versioneer
升级到 0.29 (GH#8288) Thomas Grainger允许
ResourceLimiter
无限制 (GH#8276) Hendrik Makait运行
pre-commit
自动更新 (GH#8281) Thomas Grainger为P2P层注释实例变量 (GH#8280) Hendrik Makait
优雅地移除工作者不应将任务标记为可疑 (GH#8234) Thomas Grainger
为
dask spec
添加信号处理 (GH#8261) Thomas Grainger为
sync
添加类型标注 (GH#8275) Hendrik Makait更好的 shuffle offload 注解 (GH#8277) crusaderky
测试 p2p 洗牌的最小版本 (GH#8270) crusaderky
在测试失败时运行覆盖率 (GH#8269) crusaderky
使用
aiohttp
与扩展 (GH#8274) Thomas Grainger
2023.10.0¶
发布于2023年10月13日
亮点¶
减少多数组缩减的内存压力¶
此版本包含了Dask任务图调度逻辑的主要更新。这些更新显著减少了数组缩减时的内存压力。我们预计这将对数组计算社区产生重大影响。
详情请参见 Florian Jetter 的 GH#10535。
改进的P2P洗牌鲁棒性¶
有几个更新(如下所列)使得P2P洗牌更加健壮,更不容易失败。
详情请参见 Hendrik Makait 的 GH#8262, GH#8264, GH#8242, GH#8244, 和 GH#8235,以及 Charles Blackmon-Luca 的 GH#8124。
减少大型图的调度器CPU负载¶
在计算大型任务图时,用户应在其调度程序上看到降低的CPU负载。
详情请参见 Florian Jetter 的 GH#8238 和 GH#10547 以及 crusaderky 的 GH#8240。
其他更改
分派用于基于磁盘的洗牌的
partd.Encode
类 (GH#10552) Richard (Rick) Zamora添加Hive分区的文档 (GH#10454) Richard (Rick) Zamora
为
dask.order
添加类型注解 (GH#10553) Florian Jetter允许在
dd.read_csv
中传递index_col=False
(GH#9961) Michael Leslie加强
HighLevelGraph
注解 (GH#10524) crusaderky对最新
ipykernel
/ipywidgets
的支持 (GH#8253) crusaderky检查P2P合并的最小
pyarrow
版本 (GH#8266) Hendrik Makait对 Python 3.12 的支持 (GH#8223) Thomas Grainger
在发送大图时使用
memoryview.nbytes
进行警告 (GH#8268) crusaderky在没有
gilknocker
的情况下运行测试 (GH#8263) crusaderky在 MacOS CI 上禁用 ipv6 (GH#8254) crusaderky
清理冗余的最小版本 (GH#8251) crusaderky
在调度器插件中清理
BARRIER_PREFIX
的使用 (GH#8252) crusaderky改进P2P工作插件中的shuffle运行处理 (GH#8245) Hendrik Makait
显式设置
charset=utf-8
(GH#8250) crusaderky对 GH#8239 (GH#8247) crusaderky 的输入调整
简化调度器断言 (GH#8246) crusaderky
改进打字(GH#8239)`Hendrik Makait`_
尊重 cgroups v2 的“低”内存限制 (GH#8243) Samantha Hughes
通过将其设为调度器插件来修复
PackageInstall
(GH#8142) Hendrik MakaitXfail
test_ucx_config_w_env_var
(GH#8241) crusaderkySpecCluster
对损坏工作者的恢复能力 (GH#8233) crusaderky取消任务时抑制
SpillBuffer
堆栈跟踪 (GH#8232) crusaderky在字符串化更改后更新注释 (GH#8195) crusaderky
减少配置文件的最大递归深度 (GH#8224) crusaderky
卸载深度嵌套的对象 (GH#8214) crusaderky
修复不稳定的
test_close_connections
(GH#8231) crusaderky修复不稳定的
test_popen_timeout
(GH#8229) crusaderky修复不稳定的
test_adapt_then_manual
(GH#8228) crusaderky防止
SpillBuffer
中的冲突 (GH#8226) crusaderky允许
retire_workers
并发运行 (GH#8056) Florian Jetter修复
TaskState
对象的 HTML 表示 (GH#8188) Florian Jetter修复
profile.py
中builtin_function_or_method
的AttributeError
(GH#8181) Florian Jetter修复不稳定的
test_spans
(v2) (GH#8222) crusaderky
2023年9月3日¶
发布于2023年9月29日
亮点¶
恢复以前的配置覆盖行为¶
2023.9.2 版本在 dask.config.get
中使用 override_with=
关键字覆盖配置选项的方式上引入了一个非预期的重大变化(参见 GH#10519)。此版本恢复了之前的行为。
详情请参见 crusaderky 的 GH#10521。
Dask 数组缩减中的复杂数据类型¶
此版本改进了在使用 Dask Array 中的常见归约操作(例如 var
、std
、moment
)时对复杂数据类型的支持。
详情请参见 wkrasnicki 的 GH#10009。
其他更改
将
actions/checkout
从 4.0.0 升级到 4.1.0 (GH#10532)匹配
pandas
恢复apply
弃用 (GH#10531) James Bourbeau将 gpuCI 的
RAPIDS_VER
更新为23.12
(GH#10526)使用
fsspec==2023.9.1
暂时跳过失败的测试 (GH#10520) James Bourbeau
2023年9月2日¶
发布于2023年9月15日
亮点¶
当安装了过时的 PyArrow 时,P2P 混洗现在会引发错误¶
之前,如果安装了较旧版本的 pyarrow
,默认的混洗方法会从点对点(P2P)混洗静默回退到基于任务的混洗。现在,我们会引发一个包含所需最低 pyarrow
版本的信息性错误,而不是静默回退。
详情请参见 Hendrik Makait 的 GH#10496。
admin.traceback.shorten 的弃用周期¶
2023.9.0 版本在没有引入弃用周期的情况下修改了 admin.traceback.shorten
配置选项。这导致在某些情况下无法创建 Dask 集群。此版本为此配置更改引入了弃用周期。
详情请参见 crusaderky 的 GH#10509。
其他更改
避免在
delayed
任务中具体化所有迭代器 (GH#10498) James Bourbeau在
dask.config
中彻底改革弃用系统 (GH#10499) crusaderky在
timeseries
中移除不必要的检查 (GH#10447) Patrick Hoefler在测试中使用
register_plugin
(GH#10503) James Bourbeau在
pyarrow_schema_dispatch
中明确preserve_index
(GH#10501) Hendrik Makait为
pyarrow_schema_dispatch
添加**kwargs
支持 (GH#10500) Hendrik Makait集中并输入
no_default
(GH#10495) crusaderky
2023年9月1日¶
发布于2023年9月6日
备注
这是一个热修复版本,修复了2023.9.0版本中引入的P2P洗牌错误(参见 GH#10493)。
增强功能¶
更严格的dask键数据类型 (GH#10485) crusaderky
在
DASK_
环境变量中对None
的特殊处理 (GH#10487) crusaderky
Bug 修复¶
修复
DataFrame.set_index
和DataFrame.sort_values
中meta
的_partitions
dtype
(GH#10493) Hendrik Makait在
derived_from
中处理cached_property
装饰器 (GH#10490) Lawrence Mitchell
维护¶
将
actions/checkout
从 3.6.0 升级到 4.0.0 (GH#10492)简化一些
import distributed
的测试 (GH#10484) crusaderky
2023.9.0¶
发布于2023年9月1日
Bug 修复¶
移除对
np.int64
在键中的支持 (GH#10483) crusaderky修复
meta
中_partitions
的dtype
以进行洗牌 (GH#10462) Hendrik Makait不要使用异常钩子来缩短回溯 (GH#10456) crusaderky
文档¶
在 DataFrame 文档中添加
p2p
洗牌选项 (GH#10477) Patrick Hoefler
维护¶
跳过
pandas=2.1.0
的失败测试 (GH#10488) Patrick Hoefler更新
pandas=2.1.0
的测试 (GH#10439) Patrick Hoefler启用
pytest-timeout
(GH#10482) crusaderky将
actions/checkout
从 3.5.3 升级到 3.6.0 (GH#10470)
2023年8月1日¶
发布于2023年8月18日
增强功能¶
为
cpu_count
添加 cgroup v2 支持 (GH#10419) Johan Olsson支持多列
groupby
并设置sort=True
和split_out>1
(GH#10425) Richard (Rick) Zamora添加
DataFrame.enforce_runtime_divisions
方法 (GH#10404) Richard (Rick) Zamora启用文件
mode="x"
并设置single_file=True
以用于 Dask DataFrame 的to_csv
(GH#10443) Genevieve Buckley
维护¶
为
pandas
的from_pyarrow_table_dispatch
添加默认的types_mapper
(GH#10446) Richard (Rick) Zamora
2023.8.0¶
发布于2023年8月4日
增强功能¶
修复
make_timeseries
性能回退 (GH#10428) Irina Truong
文档¶
将
distributed.print
添加到调试文档 (GH#10435) James Bourbeau记录NumPy函数与Dask函数兼容性 (GH#9941) Chiara Marmo
维护¶
在
license
元数据中使用 SPDX (GH#10437) John A Kirkham在
dask[dataframe]
中要求dask[array]
(GH#10357) John A Kirkham将 gpuCI 的
RAPIDS_VER
更新为23.10
(GH#10427)简化兼容性代码 (GH#10426) Hendrik Makait
修复兼容性变量命名 (GH#10424) Hendrik Makait
修复了上游
pandas
和pyarrow
的一些错误 (GH#10412) Irina Truong
2023年7月1日¶
发布于2023年7月20日
备注
此版本更新了 Dask DataFrame,如果安装了 pandas>=2
和 pyarrow>=12
,将自动将使用 object
数据类型的文本数据转换为 string[pyarrow]
。
这将显著减少处理文本数据的工作流中的内存消耗,并提高计算性能。
你可以通过将 dataframe.convert-string
配置值设置为 False
来禁用此更改。
dask.config.set({"dataframe.convert-string": False})
增强功能¶
如果安装了适当的依赖项,则转换为
pyarrow
字符串 (GH#10400) James Bourbeau在
p2p
的shuffle
之前避免repartition
(GH#10421) Patrick Hoefler生成随机 Dask DataFrame 的 API (GH#10392) Irina Truong
加速
dask.bag.Bag.random_sample
(GH#10356) crusaderky为无效的时间单位引发有帮助的
ValueError
(GH#10408) Nat Tabris当分区匹配时(分区作为列表提供),使
repartition
成为无操作 (GH#10395) Nicolas Grandemange
Bug 修复¶
在
read_parquet
令牌中使用dataframe.convert-string
(GH#10411) James Bourbeau在连接
MultiIndex
时,类别dtype
会丢失 (GH#10407) Irina Truong修复
FutureWarning: 提供的可调用对象...
(GH#10405) Irina Truong在
read_parquet
中启用非分类的 hive-partition 列 (GH#10353) Richard (Rick) Zamoraconcat
忽略没有列的DataFrame
(GH#10359) Patrick Hoefler
2023.7.0¶
发布于2023年7月7日
增强功能¶
在尝试加载CLI入口点时捕获异常 (GH#10380) Jacob Tomlinson
Bug 修复¶
修复
_clean_ipython_traceback
中的拼写错误 (GH#10385) Alexander Clausen确保
df
在from_pandas
之后是不可变的 (GH#10383) Patrick Hoefler在
Series.rename
中一致地警告inplace
(GH#10313) Patrick Hoefler
文档¶
在rechunk文档中添加关于输出形状和重塑的说明 (GH#10377) Swayam Patil
维护¶
简化
astype
实现 (GH#10393) Patrick Hoefler修复
test_first_and_last
以适应已弃用的last
(GH#10373) James Bourbeau在
create_merge_tree
中添加level
(GH#10391) Patrick Hoefler不要从
scipy.stats.chisquare
文档字符串派生 (GH#10382) Doug Davis
2023.6.1¶
发布于2023年6月26日
增强功能¶
移除不再支持的
clip_lower
和clip_upper
(GH#10371) Patrick Hoefler清理远程回溯 (GH#10354) Irina Truong
为
pyarrow.Table
转换添加调度机制 (GH#10312) Richard (Rick) Zamora即使启用了融合,也选择P2P (GH#10344) Hendrik Makait
在图生成过程中尽早验证重新分块的可能性 (GH#10336) Hendrik Makait
Bug 修复¶
修复了传递给
read_csv
的header
问题 (GH#10355) GALI PREM SAGAR在
GroupBy.var
和GroupBy.std
中尊重dropna
和observed
(GH#10350) Patrick Hoefler修复在分布式客户端写入hdf时出现的
H5FD_lock
错误 (GH#10309) Irina Truong修复
bag.map()
的total_mem_usage
(GH#10341) Irina Truong
弃用¶
弃用
DataFrame.fillna
/Series.fillna
的method
参数 (GH#10349) Irina Truong弃用
DataFrame.first
和Series.first
(GH#10352) Irina Truong
维护¶
弃用
numpy.compat
(GH#10370) Irina Truong修复线程间注释和跨度泄漏的问题 (GH#10367) Irina Truong
在
pyarrow_table_dispatch
函数中使用通用 kwargs (GH#10364) Richard (Rick) Zamora移除
isna
中不必要的try
/except
(GH#10363) Patrick Hoeflermypy
对 numpy 1.25 的支持 (GH#10362) crusaderky将
actions/checkout
从 3.5.2 升级到 3.5.3 (GH#10348)在
upstream
构建中恢复numba
(GH#10330) James Bourbeau更新
pandas
/numpy
/scipy
的夜间轮子索引 (GH#10346) Matthew Roeschke在yaml中添加rechunk配置值(GH#10343)`Hendrik Makait`_
2023.6.0¶
发布于2023年6月9日
增强功能¶
为
read_parquet
添加缺失的not in
谓词支持 (GH#10320) Richard (Rick) Zamora
Bug 修复¶
修复
value_counts
的错误 (GH#10323) Irina Truong更新空的
describe
顶部和频率值 (GH#10319) James Bourbeau
文档¶
修复 hetzner 拼写错误 (GH#10332) Sarah Charlotte Johnson
维护¶
在 Python 3.11 上使用
numba
和sparse
进行测试 (GH#10329) Thomas Grainger移除
numpy.find_common_type
警告忽略 (GH#10311) James Bourbeau将 gpuCI 的
RAPIDS_VER
更新为23.08
(GH#10310)
2023年5月1日¶
发布于2023年5月26日
备注
此版本放弃了对 Python 3.8 的支持。自此版本起,Dask 支持 Python 3.9、3.10 和 3.11。更多详情请参见 此社区问题。
增强功能¶
放弃对 Python 3.8 的支持 (GH#10295) Thomas Grainger
更改 Dask Bag 分区方案以提高集群饱和度 (GH#10294) Jacob Tomlinson
为GPU支持的集合泛化
dd.to_datetime
,引入get_meta_library
实用工具 (GH#9881) Charles Blackmon-Luca将
na_action
添加到DataFrame.map
(GH#10305) Patrick Hoefler在
DataFrame.nsmallest
和DataFrame.nlargest
中,当未给出columns
时引发TypeError
(GH#10301) Patrick Hoefler改进
pd.MultiIndex
的sizeof
(GH#10230) Patrick Hoefler在一系列
DataFrame
方法中支持重复的列 (GH#10261) Patrick Hoefler为
DataFrame.idxmin
和DataFrame.idxmax
添加numeric_only
支持 (GH#10253) Patrick Hoefler为
DataFrame.quantile
实现numeric_only
支持 (GH#10259) Patrick Hoefler在
DataFrame.std
中添加对numeric_only=False
的支持 (GH#10251) Patrick Hoefler为
GroupBy.cumprod
和GroupBy.cumsum
实现numeric_only=False
(GH#10262) Patrick Hoefler为
skew
和kurtosis
实现numeric_only
(GH#10258) Patrick Hoeflermask
和where
应该接受一个callable
(GH#10289) Irina Truong修复
read_parquet
中从Categorical
到pa.dictionary
的转换 (GH#10285) Patrick Hoefler
Bug 修复¶
嵌套注解上的虚假配置 (GH#10318) crusaderky
修复已知和未知块大小的维度的重新分块行为 (GH#10157) Hendrik Makait
启用
drop
以支持不匹配的分区 (GH#10300) James Bourbeau修复
to_timestamp
的divisions
构造 (GH#10304) Patrick Hoeflerpandas
ExtensionDtype
在Series
归约操作中引发 (GH#10149) Patrick Hoefler修复
da.random
接口中的回归问题 (GH#10247) Eray Aslanda.coarsen
不会修剪元数据中的空块 (GH#10281) Irina Truong修复了
read_csv
中engine="pyarrow"
的 dtype 推断问题 (GH#10280) Patrick Hoefler
文档¶
将
meta_from_array
添加到 API 文档 (GH#10306) Ruth Comer更新 Coiled 链接 (GH#10296) Sarah Charlotte Johnson
为演示日添加文档 (GH#10288) Matthew Rocklin
维护¶
在上传conda nightly版本时,从conda-forge显式安装
anaconda-client
(GH#10316) Charles Blackmon-Luca配置
isort
以添加from __future__ import annotations
(GH#10314) Thomas Grainger避免在测试中使用
pandas
Series.__getitem__
的弃用 (GH#10308) James Bourbeau忽略来自
pandas
的numpy.find_common_type
警告 (GH#10307) James Bourbeau添加测试以检查
DataFrame.__setitem__
不会就地修改df
(GH#10223) Patrick Hoefler在
value_counts
中清理dropna
的默认值 (GH#10299) Patrick Hoefler将
pytest-cov
添加到test
额外功能中 (GH#10271) James Bourbeau
2023.5.0¶
发布于2023年5月12日
增强功能¶
为
GroupBy.corr
和GroupBy.cov
实现numeric_only=False
(GH#10264) Patrick Hoefler在
DataFrame.var
中添加对numeric_only=False
的支持 (GH#10250) Patrick Hoefler为
DataFrame.mode
添加numeric_only
支持 (GH#10257) Patrick Hoefler将
DataFrame.map
添加到dask.DataFrame
API (GH#10246) Patrick Hoefler调整
DataFrame.applymap
的弃用和所有NA
concat
行为变化 (GH#10245) Patrick Hoefler为
DataFrame.count
启用numeric_only=False
(GH#10234) Patrick Hoefler在掩码/条件中禁止数组输入 (GH#10163) Irina Truong
在
GroupBy.corr
和GroupBy.cov
中支持numeric_only=True
(GH#10227) Patrick Hoefler为
GroupBy.median
添加numeric_only
支持 (GH#10236) Patrick Hoefler在
dask.datasets
中支持mimesis=9
(GH#10241) James Bourbeau为
min
,max
和prod
添加numeric_only
支持 (GH#10219) Patrick Hoefler为
GroupBy.cumsum
和GroupBy.cumprod
添加numeric_only=True
支持 (GH#10224) Patrick Hoefler添加助手以解包
numeric_only
关键字 (GH#10228) Patrick Hoefler
Bug 修复¶
修复
clone
+from_array
失败 (GH#10211) crusaderky修复ea dtypes的数据框缩减 (GH#10150) Patrick Hoefler
避免在
numpy=1.25
中的标量转换弃用警告 (GH#10248) James Bourbeau确保转换输出与输入具有相同的索引 (GH#10184) Irina Truong
修复单行分区上的
corr
和cov
(GH#9756) Irina Truong修复
test_groupby_numeric_only_supported
和test_groupby_aggregate_categorical_observed
的上游错误 (GH#10243) Irina Truong
文档¶
清理未来文档 (GH#10266) Matthew Rocklin
维护¶
当meta传递给``apply``时发出警告(GH#10256)`Patrick Hoefler`_
在CI中移除
imageio
版本限制 (GH#10260) Patrick Hoefler移除未使用的
DataFrame
方差方法 (GH#10252) Patrick Hoefler取消
xfail
test_categories
与pyarrow
字符串和pyarrow>=12
(GH#10244) Irina Truong将 gpuCI
PYTHON_VER
从 3.8 升级到 3.9 (GH#10233) Charles Blackmon-Luca
2023年4月1日¶
发布于2023年4月28日
增强功能¶
为
DataFrame.sum
实现numeric_only
支持 (GH#10194) Patrick Hoefler在
GroupBy
操作中添加对numeric_only=True
的支持 (GH#10222) Patrick Hoefler在
pandas
1.4 及以上版本中避免在DataFrame.__setitem__
中进行深层复制 (GH#10221) Patrick Hoefler避免使用
Series.apply
调用_meta_nonempty
(GH#10212) Patrick Hoefler取消固定
sqlalchemy
并修复兼容性问题 (GH#10140) Patrick Hoefler
Bug 修复¶
部分恢复默认客户端发现 (GH#10225) Florian Jetter
在
Index
元创建中支持箭头数据类型 (GH#10170) Patrick Hoefler在截断浮点数时,重新分区会引发扩展数据类型的错误 (GH#10169) Patrick Hoefler
将
fastparquet
中的空Index
调整为object
数据类型 (GH#10179) Patrick Hoefler
文档¶
更新 Kubernetes 文档 (GH#10232) Jacob Tomlinson
将
DataFrame.reduction
添加到 API 文档 (GH#10229) James Bourbeau在文档中添加
DataFrame.persist
并修复链接 (GH#10231) Patrick Hoefler为
GroupBy.transform
添加文档 (GH#10185) Irina Truong修复随机数生成文档中的格式问题 (GH#10189) Eray Aslan
维护¶
将 imageio 固定在
<2.28
(GH#10216) Patrick Hoefler关于
importlib_metadata
回传的注释 (GH#10207) James Bourbeau将
xarray
添加回 Python 3.11 CI 构建 (GH#10200) James Bourbeau添加
mindeps
构建,包含所有可选依赖 (GH#10161) Charles Blackmon-Luca在
percentiles_summary
中为array_safe
提供适当的like
值 (GH#10156) Charles Blackmon-Luca避免在
read_hdf
中多次重新打开 hdf 文件 (GH#10205) Thomas Grainger在可空列上添加合并测试 (GH#10071) Charles Blackmon-Luca
修复覆盖率配置 (GH#10203) Thomas Grainger
移除
is_period_dtype
和is_sparse_dtype
(GH#10197) Patrick Hoefler将
actions/checkout
从 3.5.0 升级到 3.5.2 (GH#10201)避免使用 pandas 中已弃用的
is_categorical_dtype
(GH#10180) Patrick Hoefler调整已弃用的
is_interval_dtype
和is_datetime64tz_dtype
(GH#10188) Patrick Hoefler
2023.4.0¶
发布于2023年4月14日
增强功能¶
在
update_defaults
中覆盖旧的默认值 (GH#10159) Gabe Joseph添加一个CLI命令来
list
和get
dask配置中的值 (GH#9936) Irina Truong处理基于字符串的引擎参数到
read_json
(GH#9947) Richard (Rick) Zamora避免使用已弃用的
GroupBy.dtypes
(GH#10111) Irina Truong
Bug 修复¶
恢复
grouper
相关更改 (GH#10182) Irina TruongGroupBy.cov
对非数值分组列引发异常 (GH#10171) Patrick Hoefler更新支持
numpy
数值数据类型的Index
(GH#10154) Irina Truong在使用
pyarrow
读取时,保留分区列的dtype
(GH#10115) Patrick Hoefler修复
to_hdf
的注释 (GH#10123) Hendrik Makait在检查列是否全为数值时处理
None
列名 (GH#10128) Lawrence Mitchell修复
valid_divisions
当传入tuple
时的问题 (GH#10126) Brian Phillips在
DataFrame.categorize
中维护注解 (GH#10120) Hendrik Makait修复在过滤过程中处理缺失的 parquet 最小/最大统计信息的问题 (GH#10042) Richard (Rick) Zamora
弃用¶
弃用
use_nullable_dtypes=
并添加dtype_backend=
(GH#10076) Irina Truong在
Series.apply
中弃用convert_dtype
(GH#10133) Irina Truong
文档¶
基于文档
Generator
的随机数生成 (GH#10134) Eray Aslan
维护¶
将
dataframe.convert_string
更新为dataframe.convert-string
(GH#10191) Irina Truong将
python-cityhash
添加到 CI 环境中 (GH#10190) Charles Blackmon-Luca暂时固定
scikit-image
以修复 Windows CI (GH#10186) Patrick Hoefler处理
to_pydatetime
和apply
的 pandas 弃用警告 (GH#10168) Patrick Hoefler移除
bokeh<3
限制 (GH#10177) James Bourbeau修复写时复制下的失败测试 (GH#10173) Patrick Hoefler
允许
pyarrow
CI 失败 (GH#10176) James Bourbeau在
dask.array
中切换到Generator
以进行随机数生成 (GH#10003) Eray Aslan将
peter-evans/create-pull-request
从 4 升级到 5 (GH#10166)修复
test_arithmetic
中的modf
操作不稳定问题 (GH#10162) Irina Truong暂时从CI中移除
xarray
与pandas
2.0 (GH#10153) James Bourbeau修复
test_default_scheduler_on_worker
中的update_graph
计数逻辑 (GH#10145) James Bourbeau修复
pandas
2.0 的文档构建 (GH#10138) James Bourbeau从 gpuCI 更新审核者中移除
dask/gpu
(GH#10135) Charles Blackmon-Luca将 gpuCI 的
RAPIDS_VER
更新为23.06
(GH#10129)将
actions/stale
从 6 升级到 8 (GH#10121)使用声明式的
setuptools
(GH#10102) Thomas Grainger放松对
Scalar
类对象的assert_eq
检查 (GH#10125) Matthew Rocklin将 readthedocs 配置升级到 ubuntu 22.04 和 Python 3.11 (GH#10124) Thomas Grainger
将
actions/checkout
从 3.4.0 升级到 3.5.0 (GH#10122)修复
pyarrow
CI 构建中的test_null_partition_pyarrow
(GH#10116) Irina Truong删除分布式包 (GH#9988) Florian Jetter
将
dask.compatibility
设为私有 (GH#10114) Jacob Tomlinson
2023年3月2日¶
发布于2023年3月24日
增强功能¶
弃用
groupby
中分类数据的observed=False
(GH#10095) Irina Truong弃用某些 groupby 操作中的
axis=
参数 (GH#10094) James Bourbeau在
DataFrame.rolling/Series.rolling
中的axis
关键字已被弃用 (GH#10110) Irina TruongDataFrame._data
在pandas
中的弃用 (GH#10081) Irina Truong使用
importlib_metadata
回退以避免 CLIUserWarning
(GH#10070) Thomas Grainger将
dask.dataframe.read_parquet
的端口选项解析逻辑移植到to_parquet
(GH#9981) Anton Loukianov
Bug 修复¶
避免在 groupby-apply 中使用
dd.shuffle
(GH#10043) Richard (Rick) Zamora使用
pyarrow
parquet 引擎启用空 hive 分区 (GH#10007) Richard (Rick) Zamora在
*_like
函数中支持未知形状 (GH#10064) Doug Davis
文档¶
在API文档中添加
to_backend
方法 (GH#10093) Lawrence Mitchell在开发者文档中移除损坏的gpuCI链接 (GH#10065) Charles Blackmon-Luca
维护¶
将 readthedocs sphinx 警告配置为错误 (GH#10104) Thomas Grainger
取消
xfail
test_division_or_partition
的pyarrow
字符串激活 (GH#10108) Irina Truong取消
xfail
test_different_columns_are_allowed
,当pyarrow
字符串激活时 (GH#10109) Irina Truong恢复 Entrypoints 兼容性 (GH#10113) Jacob Tomlinson
取消
xfail
test_to_dataframe_optimize_graph
并激活pyarrow
字符串 (GH#10087) Irina Truong仅在可编辑安装时运行
test_development_guidelines_matches_ci
(GH#10106) Charles Blackmon-Luca取消
xfail
test_dataframe_cull_key_dependencies_materialized
,当pyarrow
字符串激活时 (GH#10088) Irina Truong在CI环境中安装
mimesis
(GH#10105) Charles Blackmon-Luca修复未找到模块
ipykernel
的问题 (GH#10101) Irina Truong通过安装
ipykernel
修复文档构建 (GH#10103) Thomas Grainger允许
pyarrow
在失败时继续构建 (GH#10097) James Bourbeau将
actions/checkout
从 3.3.0 升级到 3.4.0 (GH#10096)修复
test_set_index_on_empty
在pyarrow
字符串激活时的问题 (GH#10054) Irina Truong取消
xfail
pyarrow
序列化测试 (GH#10082) James BourbeauCI 环境文件清理 (GH#10078) James Bourbeau
取消
xfail
更多pyarrow
测试 (GH#10066) Irina Truong暂时跳过
pyarrow_compat
测试与 pandas 2.0 (GH#10063) James Bourbeau修复
test_melt
在pyarrow
字符串激活时的问题 (GH#10052) Irina Truong修复
test_str_accessor
在pyarrow
字符串激活时的问题 (GH#10048) James Bourbeau修复
test_better_errors_object_reductions
在pyarrow
字符串激活时的问题 (GH#10051) James Bourbeau修复
test_loc_with_non_boolean_series
在pyarrow
字符串激活时的问题 (GH#10046) James Bourbeau修复
test_values
在pyarrow
字符串激活时的问题 (GH#10050) James Bourbeau暂时
xfail
test_upstream_packages_installed
(GH#10047) James Bourbeau
2023年3月1日¶
发布于2023年3月10日
增强功能¶
在
MultiIndex
中支持 pyarrow 字符串 (GH#10040) Irina Truong改进了对
pyarrow
字符串的支持 (GH#10000) Irina Truong修复数组缩减期间的不稳定
RuntimeWarning
(GH#10030) James Bourbeau扩展
complete
额外功能 (GH#10023) James Bourbeau使用
dataframe.convert-string=True
和pandas<2.0
时引发错误 (GH#10033) Irina Truong将 shuffle/rechunk 配置选项/关键字参数重命名为
method
(GH#10013) James Bourbeau添加对将
pandas
扩展数据类型转换为数组的初始支持 (GH#10018) James Bourbeau移除
randomgen
支持 (GH#9987) Eray Aslan
Bug 修复¶
当重新分块到相同大小的未知大小时跳过分块 (GH#10027) Hendrik Makait
自定义工具将 parquet 过滤器转换为
pyarrow
表达式 (GH#9885) Richard (Rick) Zamora在填充时将
numpy
标量和 0d 数组视为标量 (GH#9653) Justus Magin在自适应
read_parquet
操作后修复 parquet 覆盖行为 (GH#10002) Richard (Rick) Zamora
维护¶
从
pyarrow
parquet 引擎中移除过时的 hive-partitioning 代码 (GH#10039) Richard (Rick) Zamora将最小支持的
pyarrow
提升至 7.0 (GH#10024) James Bourbeau恢复“准备丢弃 packunpack (GH#9994) (GH#10037) Florian Jetter”
在报告前让 codecov 等待更多构建 (GH#10031) James Bourbeau
准备 drop packunpack (GH#9994) Florian Jetter
添加启用
pyarrow
字符串的 CI 作业 (GH#10017) James Bourbeau修复
pandas
2.0 的test_groupby_dropna_with_agg
(GH#10001) Irina Truong修复
pandas
2.0 的test_pickle_roundtrip
(GH#10011) James Bourbeau
2023.3.0¶
发布于2023年3月1日
Bug 修复¶
Bag 不能将 p2p 作为 shuffle 的默认设置 (GH#10005) Florian Jetter
文档¶
默认P2P的小跟进 (GH#10008) James Bourbeau
维护¶
为可选的
jinja2
依赖添加最低版本 (GH#9999) Charles Blackmon-Luca
2023年2月1日¶
发布于2023年2月24日
备注
此版本将默认的 DataFrame 洗牌算法更改为 p2p
,以提高稳定性和性能。在此了解更多,并请在 此讨论 中提供任何反馈。
如果你在使用这个新算法时遇到问题,请参阅 文档 以获取更多信息,以及如何切换回旧模式。
增强功能¶
默认启用P2P混洗 (GH#9991) Florian Jetter
P2P 重新分块 (GH#9939) Hendrik Makait
为 read_parquet 提供高效的 dataframe.convert-string 支持 (GH#9979) Irina Truong
允许 DataFrame 合并的 p2p 洗牌关键字参数 (GH#9900) Florian Jetter
将
split_row_groups
的默认值更改为“infer” (GH#9637) Richard (Rick) Zamora添加将字符串数据转换为使用
pyarrow
字符串的选项 (GH#9926) James Bourbeau添加对多列
sort_values
的支持 (GH#8263) Charles Blackmon-Lucadask.array
中的Generator
基于随机数生成 (GH#9038) Eray Aslan支持
pandas
2.0 兼容性的简单 groupby 聚合的numeric_only
(GH#9889) Irina Truong
Bug 修复¶
修复分析器图表未与上下文管理器进入时间对齐的问题 (GH#9739) David Hoese
放松 dask.dataframe assert_eq 类型检查 (GH#9989) Matthew Rocklin
为
pandas
2.0 恢复describe
兼容性 (GH#9982) James Bourbeau
文档¶
改进 Dask 文档的部署 (GH#9912) Sarah Charlotte Johnson
更多关于
DataFrame.partitions
的文档 (GH#9976) Tom Augspurger更新文档,增加关于默认延迟调度器 (GH#9903) 的更多信息 Guillaume Eynard-Bontemps
部署考虑文档 (GH#9933) Gabe Joseph
维护¶
暂时重新运行不稳定测试 (GH#9983) James Bourbeau
更新 FULL_RAPIDS_VER/FULL_UCX_PY_VER 的解析 (GH#9990) Charles Blackmon-Luca
将最低支持版本提升至
pandas=1.3
和numpy=1.21
(GH#9950) James Bourbeau修复
std
以与pandas
2.0 的numeric_only
一起工作 (GH#9960) Irina Truong暂时
xfail
test_roundtrip_partitioned_pyarrow_dataset
(GH#9977) James Bourbeau修复 test_idxmaxmin 中的写时复制失败 (GH#9944) Patrick Hoefler
更新
pre-commit
版本 (GH#9955) crusaderky修复
pandas
2.0 的test_groupby_unaligned_index
(GH#9963) Irina Truong取消
xfail
test_set_index_overlap_2
对于pandas
2.0 (GH#9959) James Bourbeau修复
pandas
2.0 的test_merge_by_index_patterns
(GH#9930) Irina Truong将 jacobtomlinson/gha-find-replace 从 2 升级到 3 (GH#9953) James Bourbeau
修复
test_rolling_agg_aggregate
以兼容pandas
2.0 (GH#9948) Irina Truong将
black
更新到23.1.0
(GH#9956) crusaderky在 Python 3.8 和 3.10 上运行 GPU 测试 (GH#9940) Charles Blackmon-Luca
修复
pandas
2.0 的test_to_timestamp
(GH#9932) Irina Truong修复
groupby
value_counts
在pandas
2.0 兼容性中的错误 (GH#9928) Irina Truong配置转换器:将所有短横线替换为下划线 (GH#9945) Jacob Tomlinson
CI: 在上游测试构建中使用 nightly wheel 安装 pyarrow (GH#9873) Joris Van den Bossche
2023.2.0¶
发布于2023年2月10日
增强功能¶
在
pandas
2.0 中更新quantile
的numeric_only
默认值 (GH#9854) Irina Truong当分区匹配时,使
repartition
成为无操作(GH#9924) James Bourbeau在
pandas
2.0 中更新describe
的datetime_is_numeric
行为 (GH#9868) Irina Truong更新
value_counts
以在pandas
2.0 中返回正确的名称 (GH#9919) Irina Truong在
pandas
2.0 中支持新的axis=None
行为用于某些归约操作 (GH#9867) James Bourbeau在
nanmin
和nanmax
的块级别过滤掉所有-nanRuntimeWarning
(GH#9916) Julia Signell修复
pandas
2.0 的数值meta_nonempty
索引creation
(GH#9908) James Bourbeau修复
pandas
2.0 的DataFrame.info()
测试 (GH#9909) James Bourbeau
Bug 修复¶
修复
GroupBy.value_counts
对多个groupby
列的处理 (GH#9905) Charles Blackmon-Luca
文档¶
修复开发指南中的一些过时信息/拼写错误 (GH#9893) Patrick Hoefler
在
drop_duplicates
文档字符串中添加关于keep=False
的注释 (GH#9887) Jayesh Manani为 dask 数组添加
meta
详细信息 (GH#9886) Jayesh Manani澄清任务流显示的行数多于线程数 (GH#9906) Gabe Joseph
维护¶
修复
pandas
2.0 的test_numeric_column_names
(GH#9937) Irina Truong修复
pandas
2.0 的dask/dataframe/tests/test_utils_dataframe.py
测试 (GH#9788) James Bourbeau将
index.is_numeric
替换为is_any_real_numeric_dtype
以兼容pandas
2.0 (GH#9918) Irina Truong避免在dask工具中导入``pd.core`` (GH#9907) Matthew Roeschke
在拉取请求上使用标签进行
upstream
构建 (GH#9910) James Bourbeau扩展对
sqlalchemy.exc.RemovedIn20Warning
的异常捕获 (GH#9904) James Bourbeau在CI中暂时限制
sqlalchemy < 2
(GH#9897) James Bourbeau将
isort
版本更新至 5.12.0 (GH#9895) Lawrence Mitchell在
read_csv
中移除未使用的skiprows
变量 (GH#9892) Patrick Hoefler
2023年1月1日¶
发布于2023年1月27日
增强功能¶
在
Array
和_Frame
中添加to_backend
方法 (GH#9758) Richard (Rick) Zamorapandas
2.0 中时间戳索引分区的微小修复 (GH#9872) Irina Truong将
numeric_only
添加到DataFrame.cov
和DataFrame.corr
(GH#9787) James Bourbeau修复了
pandas
2.0 中group_keys
默认值更改的相关问题 (GH#9855) Irina Truonginfer_datetime_format
对pandas
2.0 的兼容性 (GH#9783) James Bourbeau
Bug 修复¶
修复
BroadcastJoinLayer
中的序列化错误 (GH#9871) Richard (Rick) Zamora在
DataFrame.merge
中满足broadcast
参数 (GH#9852) Richard (Rick) Zamora
文档¶
修复“重复的显式目标名称”文档警告 (GH#9863) Chiara Marmo
修复“定义新的集合后端”文档中的代码格式问题 (GH#9864) Chiara Marmo
更新内存图表的仪表板文档 (GH#9768) Jayesh Manani
添加关于
no-worker
任务的文档部分 (GH#9839) Florian Jetter
维护¶
检测
distributed
调度器的额外更新 (GH#9890) James Bourbeau将 gpuCI 的
RAPIDS_VER
更新为23.04
(GH#9876)集合与
distributed
默认值之间的反向优先级 (GH#9869) Florian Jetter更新
xarray-contrib/issue-from-pytest-log
到版本 1.2.6 (GH#9865) James Bourbeau不需要dask配置shuffle默认值 (GH#9826) Florian Jetter
取消
xfail
datetime64
Parquet 往返测试以适应新的fastparquet
(GH#9811) James Bourbeau添加选项以手动运行
upstream
CI 构建 (GH#9853) James Bourbeau在CI构建中使用自定义超时 (GH#9844) James Bourbeau
从
make_blockwise_graph
中移除kwargs
(GH#9838) Florian Jetter在
test_setitem_extended_API_2d_mask
中忽略persist
调用的警告 (GH#9843) Charles Blackmon-Luca修复本地运行S3测试 (GH#9833) James Bourbeau
2023.1.0¶
发布于2023年1月13日
增强功能¶
即使没有设置配置,也使用
distributed
默认客户端 (GH#9808) Florian Jetter实现
ma.where
和ma.nonzero
(GH#9760) Erik Holmgren更新
zarr
存储创建函数 (GH#9790) Ryan Abernatheyiteritems
对pandas
2.0 的兼容性 (GH#9785) James Bourbeau为
pandas
的string[python]
dtype 提供准确的sizeof
(GH#9781) crusaderky压缩重复引用 pandas 对象类型的
sizeof()
(GH#9776) crusaderkyGroupBy.__getitem__
对pandas
2.0 的兼容性 (GH#9779) James Bourbeauappend
对pandas
2.0 的兼容性 (GH#9750) James Bourbeauget_dummies
对pandas
2.0 的兼容性 (GH#9752) James Bourbeauis_monotonic
对pandas
2.0 的兼容性 (GH#9751) James Bourbeaunumpy=1.24
兼容性 (GH#9777) James Bourbeau
文档¶
删除
to_json
文档字符串中重复的encoding
关键字参数 (GH#9796) Sultan Orazbayev在
LocalCluster
文档中提及SubprocessCluster
(GH#9784) Hendrik Makait将 Prometheus 文档移动到
dask/distributed
(GH#9761) crusaderky
维护¶
在
test_setitem_extended_API_2d_mask
中暂时忽略RuntimeWarning
(GH#9828) James Bourbeau修复不稳定的
test_threaded.py::test_interrupt
(GH#9827) Hendrik Makait在
upstream
报告中更新xarray-contrib/issue-from-pytest-log
(GH#9822) James Bourbeau在gpuCI构建中安装``pip`` dask (GH#9816) Charles Blackmon-Luca
将
actions/checkout
从 3.2.0 升级到 3.3.0 (GH#9815)解决
mindeps
测试中的sqlalchemy
导入失败问题 (GH#9809) Charles Blackmon-Luca忽略
sqlalchemy.exc.RemovedIn20Warning
(GH#9801) Thomas Graingerxfail
datetime64
对pandas
2.0 的 Parquet 往返测试 (GH#9786) James Bourbeau减少预期 DoK 稀疏矩阵的大小 (GH#9775) Elliott Sales de Andrade
从
dask/dataframe/io/orc/utils.py
中移除可执行标志 (GH#9774) Elliott Sales de Andrade
2022.12.1¶
发布于2022年12月16日
增强功能¶
支持
dtype_backend="pandas|pyarrow"
配置 (GH#9719) James Bourbeau在
dask.dataframe
中支持cupy.ndarray
到cudf.DataFrame
的分发 (GH#9579) Richard (Rick) Zamora在
read_parquet
中使文件系统后端可配置 (GH#9699) Richard (Rick) Zamora高效序列化所有
pyarrow
扩展数组 (GH#9740) James Bourbeau
Bug 修复¶
修复在重新分区时使用
tz
感知型 datetime 索引的错误 (GH#9741) James Bourbeau聚合中的部分函数可能具有参数 (GH#9724) Irina Truong
添加对
pyarrow
支持的扩展数据类型的简单操作支持 (GH#9717) James Bourbeau在
SeriesGroupby
情况下正确重命名列 (GH#9716) Lawrence Mitchell
文档¶
更新 Prometheus 文档 (GH#9696) Hendrik Makait
维护¶
将
zarr
添加到 Python 3.11 CI 环境 (GH#9771) James Bourbeau添加对 Python 3.11 的支持 (GH#9708) Thomas Grainger
将
actions/checkout
从 3.1.0 升级到 3.2.0 (GH#9753)避免
np.bool8
弃用警告 (GH#9737) James Bourbeau确保在
upstream
CI 构建中不会覆盖开发包 (GH#9731) James Bourbeau在测试期间避免添加
data.h5
和mydask.html
文件 (GH#9726) Thomas Grainger
2022.12.0¶
于2022年12月2日发布
增强功能¶
从
read_parquet
中移除基于统计的set_index
逻辑 (GH#9661) Richard (Rick) Zamora为
dd.read_parquet
添加use_nullable_dtypes
支持 (GH#9617) Ian Rose修复
map_overlap
以接受 pandas 参数 (GH#9571) Fabien Aulaire修复 pandas 1.5+ 在
.str.split(..., expand=True)
中的FutureWarning
(GH#9704) Jacob Hayes为
groupby
切片启用列投影 (GH#9667) Richard (Rick) Zamora改进失败的backend调度调用的错误信息 (GH#9677) Richard (Rick) Zamora
Bug 修复¶
在arrow parquet引擎中修订元创建 (GH#9672) Richard (Rick) Zamora
修复
da.fft.fft
以支持类数组输入 (GH#9688) James Bourbeau修复
groupby
在按名称分组索引时的聚合 (GH#9646) Richard (Rick) Zamora
维护¶
避免在
test_inheriting_class
中出现PytestReturnNotNoneWarning
(GH#9707) Thomas Grainger修复不稳定的
test_dataframe_aggregations_multilevel
(GH#9701) Richard (Rick) Zamora更新
mypy
版本 (GH#9697) crusaderky在
test_map_partitions_df_input
中禁用仪表板 (GH#9687) James Bourbeau在
upstream
构建中使用最新的xarray-contrib/issue-from-pytest-log
(GH#9682) James Bourbeauxfail
ttest_1samp
用于上游scipy
(GH#9670) James Bourbeau将 gpuCI 的
RAPIDS_VER
更新为23.02
(GH#9678)
2022.11.1¶
发布于2022年11月18日
增强功能¶
限制
bokeh=3
支持 (GH#9673) Gabe Josephfastparquet
进化的更新 (GH#9650) Martin Durant
维护¶
在gpuCI更新工作流中更新
ga-yaml-parser
步骤 (GH#9675) Charles Blackmon-Luca恢复
importlib.metadata
的解决方法 (GH#9658) James Bourbeau修复
mindeps-distributed
CI 构建以处理未安装numpy
/pandas
的情况 (GH#9668) James Bourbeau
2022.11.0¶
发布于2022年11月15日
增强功能¶
将
from_dict
实现泛化,以允许从其他后端使用 (GH#9628) GALI PREM SAGAR
Bug 修复¶
避免在
dask.dataframe.core
中使用pandas
构造函数 (GH#9570) Richard (Rick) Zamora修复
sort_values
与Timestamp
数据 (GH#9642) James Bourbeau在
_get_partitions
中泛化数组检查并移除pd.Index
调用 (GH#9634) Benjamin Zaitlen修复
read_csv
在header=0
和names
时的行为 (GH#9614) Richard (Rick) Zamora
文档¶
更新队列仪表板文档 (GH#9660) Gabe Joseph
从文档字符串中移除
import dask as d
(GH#9644) Matthew Rocklin修复
read_parquet
文档字符串中对分区文档的链接 (GH#9636) qheuristics在
array/bag/dataframe
部分添加 API 文档链接 (GH#9630) Matthew Rocklin
维护¶
使用
conda-incubator/setup-miniconda@v2.2.0
(GH#9662) John A Kirkham允许
bokeh=3
(GH#9659) James Bourbeau使用 Python 3.10 运行
upstream
构建 (GH#9655) James Bourbeau在mindeps测试中固定
pyyaml
版本 (GH#9640) Charles Blackmon-Luca添加
pre-commit
以捕捉breakpoint()
(GH#9638) James Bourbeau将
xarray-contrib/issue-from-pytest-log
从 1.1 升级到 1.2 (GH#9635)移除
blosc
引用 (GH#9625) Naty Clementi升级
mypy
并删除未使用的注释 (GH#9616) Hendrik Makait强化
test_repartition_npartitions
(GH#9585) Richard (Rick) Zamora
2022.10.1¶
发布于2022年10月28日
增强功能¶
为
set_index
添加扩展 dtype 支持 (GH#9566) James Bourbeau重新设计数组 HTML 表示以提高清晰度 (GH#9519) Shingo OKAWA
文档¶
添加关于默认限制线程过度订阅的注释 (GH#9592) James Bourbeau
使用
sphinx-click
为dask
CLI (GH#9589) James Bourbeau修复信号量API文档 (GH#9584) James Bourbeau
在
map_overlap
文档字符串中渲染元描述 (GH#9568) James Bourbeau
维护¶
在 Dask 中要求 Click 7.0+ (GH#9595) John A Kirkham
暂时限制
bokeh<3
(GH#9607) James Bourbeau解决
upstream
CI 中的importlib
相关失败 (GH#9604) Charles Blackmon-Luca改进
upstream
CI 报告 (GH#9603) James Bourbeau修复
upstream
CI 报告 (GH#9602) James Bourbeau移除
setuptools
主机依赖,添加 CLI 入口点 (GH#9600) Charles Blackmon-Luca
2022.10.0¶
发布于2022年10月14日
新功能¶
Dask-Array 和 Dask-DataFrame 中的 IO 后端库调度 (GH#9475) Richard (Rick) Zamora
添加新的可扩展CLI (GH#9283) Doug Davis
增强功能¶
修复数组复制不是空操作 (GH#9555) David Hoese
在
map_overlap
中添加对字符串 timedelta 的支持 (GH#9559) Nicolas Grandemange使
datetime.datetime
幂等化标记 (GH#9532) Martin Durant
Bug 修复¶
避免在延迟调度注册中的竞争条件 (GH#9545) James Bourbeau
不允许对
int
数据类型使用np.nan
进行 setitem 操作 (GH#9531) Doug Davis选择时修复项目CSV列(GH#9534) Martin Durant
文档¶
更新 Parquet 最佳实践 (GH#9537) Matthew Rocklin
维护¶
限制
tiledb-py
版本以避免 CI 失败 (GH#9569) James Bourbeau将
actions/github-script
从 3 升级到 6 (GH#9564)将
actions/stale
从 4 升级到 6 (GH#9551)将
peter-evans/create-pull-request
从 3 升级到 4 (GH#9550)将
actions/checkout
从 2 升级到 3.1.0 (GH#9552)将
codecov/codecov-action
从 1 升级到 3 (GH#9549)将
the-coding-turtle/ga-yaml-parser
从 0.1.1 升级到 0.1.2 (GH#9553)移动 dependabot 配置文件 (GH#9547) James Bourbeau
为GitHub actions添加dependabot (GH#9542) James Bourbeau
在 Windows 和 Linux 上运行 mypy (GH#9530) crusaderky
将 gpuCI 的
RAPIDS_VER
更新为22.12
(GH#9524)
2022年9月2日¶
发布于2022年9月30日
增强功能¶
从数组自动分块中移除因子分解逻辑 (GH#9507) James Bourbeau
文档¶
在独立Python脚本中运行Dask的文档 (GH#9513) James Bourbeau
2022.9.1¶
发布于2022年9月16日
新功能¶
添加
DataFrame
和Series
的median
方法 (GH#9483) James Bourbeau
增强功能¶
按列表过滤 (GH#9419) Greg Hayes
将
distributed.utils.key_split
功能添加到dask.utils.key_split
(GH#9464) Luke Conibear
Bug 修复¶
修复重叠问题,使
set_index
不会删除行 (GH#9423) Julia Signell修复当
ddf.columns.min()
引发时分配 pandasSeries
到列的问题 (GH#9485) Erik Welch修复元数据比较
stack_partitions
(GH#9481) James Bourbeau为
split_out
提供默认值 (GH#9493) Lawrence Mitchell
文档¶
修复
enforce_metadata
文档,不检查 dtypes (GH#9474) Nicolas Grandemange修复
it's
–>its
的拼写错误 (GH#9484) Nat Tabris
维护¶
从
pandas
中过滤掉numeric_only
警告 (GH#9496) James Bourbeau避免在不必要的地方使用
set_index(..., inplace=True)
(GH#9472) James Bourbeau避免传递长度为一的 groupby 键列表 (GH#9495) James Bourbeau
根据
cudf
对group_keys
的支持更新test_groupby_dropna_cudf
(GH#9482) James Bourbeau移除
dd.from_bcolz
(GH#9479) James Bourbeau在
pre-commit
钩子中添加了flake8-bugbear
(GH#9457) Luke Conibear在函数定义中绑定循环变量 (
B023
) (GH#9461) Luke Conibear添加了比较的断言 (
B015
) (GH#9459) Luke Conibear在CI工作流中设置顶级默认shell (GH#9469) James Bourbeau
移除了未使用的循环控制变量 (
B007
) (GH#9458) Luke Conibear替换常量属性的
getattr
调用 (B009
) (GH#9460) Luke Conibear固定
libprotobuf
以允许在上游 CI 构建中使用 nightlypyarrow
(GH#9465) Joris Van den Bossche替换默认参数的可变数据结构 (
B006
) (GH#9462) Luke Conibear更改了
flake8
镜像并更新了版本 (GH#9456) Luke Conibear
2022.9.0¶
发布于2022年9月2日
增强功能¶
为
groupby
聚合启用自动列投影 (GH#9442) Richard (Rick) Zamora在 NEP-13/17 调度中接受超类 (GH#6710) Gabe Joseph
Bug 修复¶
在同一
by
列上进行累积操作时,内部重命名by
列 (GH#9430) Pavithra Eswaramoorthy修复
get_group
与分类变量 (GH#9436) Pavithra Eswaramoorthy修复与缓存相关的
MaterializedLayer.cull
性能退化 (GH#9413) Richard (Rick) Zamora
文档¶
添加维护者文档页面 (GH#9309) James Bourbeau
维护¶
恢复跳过的 fastparquet 测试 (GH#9439) Pavithra Eswaramoorthy
tmpfile
在空扩展名时不以句号结束文件 (GH#9429) Hendrik Makait跳过最新版本中失败的 fastparquet 测试 (GH#9432) James Bourbeau
2022年8月1日¶
发布于2022年8月19日
新功能¶
实现
ma.*_like 函数
(GH#9378) Ruth Comer
增强功能¶
基于Shuffle的高基数分组聚合 (GH#9302) Richard (Rick) Zamora
解包
namedtuple
(GH#9361) Hendrik Makait
Bug 修复¶
修复
SeriesGroupBy
在axis=1
时的累积函数 (GH#9377) Pavithra Eswaramoorthy在使用带有索引的分类列时修复
make_meta
(GH#9348) Pavithra Eswaramoorthy在
DataFrame.dropna
中不允许使用不兼容的关键字 (GH#9366) Naty Clementi使
set_index
完全处理空数据框 (GH#8896) Julia Signell在
unpack_collections
中改进dataclass
处理 (GH#9345) Hendrik Makait
文档¶
澄清
bind()
等操作会重新生成密钥 (GH#9385) crusaderky整合仪表盘诊断文档 (GH#9357) Sarah Charlotte Johnson
移除过时的
meta
信息 Pavithra Eswaramoorthy
维护¶
在
sizeof
中使用entry_points
工具 (GH#9390) James Bourbeau添加
entry_points
兼容性工具 (GH#9388) Jacob Tomlinson为每个CI构建上传环境文件工件 (GH#9372) James Bourbeau
在CI中移除
werkzeug
的固定版本 (GH#9371) James Bourbeau修复
dd.from_pandas
和dd.from_delayed
的类型注解 (GH#9362) Jordan Yap
2022.8.0¶
发布于2022年8月5日
增强功能¶
确保
make_meta
不持有对数据的引用 (GH#9354) Jim Crist-Harif在
from_pandas
中修订divisions
逻辑 (GH#9221) Richard (Rick) Zamora如果用户设置的索引已存在,则发出警告 (GH#9341) Julia Signell
为
da.average
添加keepdims
关键字 (GH#9332) Ruth Comer更改
repr
方法以避免Layer
物化 (GH#9289) Richard (Rick) Zamora
Bug 修复¶
确保
order
关键字参数不会导致astype
方法崩溃 (GH#9317) Genevieve Buckley修复了
cumsum
在 cupy 分块 dask 数组上的错误 (GH#9320) Genevieve Buckley在
_sample_reduce
中匹配输入和输出结构 (GH#9272) Pavithra Eswaramoorthy在数组序列化中包含
meta
(GH#9240) Frédéric BRIOL修复
Index.memory_usage
(GH#9290) James Bourbeau修复
dask.dataframe.io.from_dask_array
中的除法计算 (GH#9282) Jordan Yap
文档¶
如何在自定义任务图中使用 kwargs (GH#9322) Genevieve Buckley
在
da.from_array
中添加关于顺序未保留的注释 (GH#9346) Julia Signell为异步函数添加I/O信息 (GH#9326) Logan Norman
整理了未来IO函数的文档片段 (GH#9340) Julia Signell
在
dataframe-groupby.rst
中为 pandasdf
和 Daskddf
使用一致的变量名 (GH#9304) ivojuroro在配置转换器中将
js-yaml
替换为yaml.js
(GH#9306) Jacob Tomlinson
维护¶
更新
da.linalg.solve
以兼容 SciPy 1.9.0 (GH#9350) Pavithra Eswaramoorthy更新
test_getitem_avoids_large_chunks_missing
(GH#9347) Pavithra Eswaramoorthy修复“扩展
sizeof
”文档标题格式 Doug Davis在测试中导入
loop_in_thread
夹具 (GH#9337) James Bourbeau暂时
xfail
test_solve_sym_pos
(GH#9336) Pavithra Eswaramoorthy修复Dask页面中的小拼写错误(GH#9329) Shaghayegh
暂时在CI中固定
werkzeug
以避免测试套件挂起 (GH#9325) James Bourbeau为
cupy.angle()
添加测试 (GH#9312) Peter Andreas Entschev将 gpuCI
RAPIDS_VER
更新为22.10
(GH#9314)在
test
额外项中添加pandas[test]
(GH#9110) Ben Beasley将
bokeh
和scipy
添加到upstream
CI 构建中 (GH#9265) James Bourbeau
2022年7月1日¶
发布于2022年7月22日
增强功能¶
如果所有轴都被压缩,则返回 Dask 数组 (GH#9250) Pavithra Eswaramoorthy
通过toposort报告的制作周期缩短 (GH#9068) Erik Welch
未知块切片 - 引发信息性错误 (GH#9285) Naty Clementi
Bug 修复¶
修复
HighLevelGraph.cull
中的错误 (GH#9267) Richard (Rick) Zamora分类排序 (GH#9264) Pavithra Eswaramoorthy
使用
max``(而不是 ``sum
)来计算warnsize
(GH#9235) Pavithra Eswaramoorthy修复在使用 pyarrow 过滤分区列时的错误 (GH#9252) Richard (Rick) Zamora
文档¶
更新了分区文档以添加关于
partition_size
的注释 (GH#9288) Dylan Stewart不要在
Array
方法中包含文档,只需引用模块文档 (GH#9244) Julia Signell移除过时的调度器和工作器仪表板引用 (GH#9278) Pavithra Eswaramoorthy
维护¶
为
dd.from_pandas
和dd.from_delayed
添加类型注解 (GH#9237) Michael Milton更新
calculate_divisions
文档字符串 (GH#9275) Tom Augspurger更新
test_plot_multiple
以适应即将发布的bokeh
版本 (GH#9261) James Bourbeau
2022.7.0¶
发布于2022年7月8日
增强功能¶
在
normalize_token
中支持pathlib.PurePath
(GH#9229) Angus Hollands为属性添加
AttributeNotImplementedError
以便 IPython 全局搜索工作 (GH#9231) Erik Welchmap_overlap
: 多数据框处理 (GH#9145) Fabien Aulaire在
dask.sizeof
中读取入口点 (GH#7688) Angus Hollands
Bug 修复¶
在使用
Client(processes=False)
写入parquet数据集时修复TypeError: 'Serialize' object is not subscriptable
(GH#9015) Lucas Miguel Ponce在
concat
空数据框时正确处理数据类型 (GH#9193) Pavithra Eswaramoorthy
文档¶
关于持久化的亮点说明 (GH#9234) Pavithra Eswaramoorthy
更新发布程序以包含更多细节和有用的命令 (GH#9215) Julia Signell
未来和Dask vs. Spark页面的更好SEO (GH#9217) Sarah Charlotte Johnson
维护¶
在列表、元组和迭代器上使用
math.prod
而不是np.prod
(GH#9232) crusaderky仅在类型检查时导入 IPython (GH#9230) Florian Jetter
更严格的 mypy 检查 (GH#9206) crusaderky
2022年6月1日¶
发布于2022年6月24日
增强功能¶
创建
dask.utils.show_versions
(GH#9144) Sultan Orazbayev为不支持的 numpy 操作在 dask.dataframe 对象上提供更好的错误信息。(GH#9201) Julia Signell
在
dask.array.overlap
函数中添加allow_rechunk
关键字参数 (GH#7776) Genevieve Buckley向
dask.utils.format_time
添加分钟和小时 (GH#9116) Matthew Rocklin
Bug 修复¶
时间差确定性哈希 (GH#9213) Fabien Aulaire
枚举确定性哈希 (GH#9212) Fabien Aulaire
shuffle_group()
: 避免转换为数组 (GH#9157) Mads R. B. Kristensen
弃用¶
弃用额外的
format_time
工具 (GH#9184) James Bourbeau
文档¶
更好的SEO为10分钟到Dask (GH#9182) Sarah Charlotte Johnson
更好的SEO延迟和最佳实践 (GH#9194) Sarah Charlotte Johnson
在 DataFrame
str.split
访问器的文档字符串中包含已知的差异 (GH#9177) Richard Pelgrim在
derived_from
中添加inconsistencies
关键字 (GH#9192) Richard Pelgrim修复最佳实践中的缩进 (GH#9196) Sarah Charlotte Johnson
添加链接到 Genevieve Buckley 关于块大小的博客 (GH#9199) Pavithra Eswaramoorthy
更新
to_csv
文档字符串 (GH#9094) Sarah Charlotte Johnson
维护¶
更新 versioneer:从使用
SafeConfigParser
改为ConfigParser
(GH#9205) Thomas A Caswell在CI中移除ipython hack(GH#9200) crusaderky
2022.6.0¶
发布于2022年6月10日
增强功能¶
在 HLG JupyterLab repr 中添加显示层依赖名称的功能 (GH#9081) Angelos Omirolis
添加箭头模式提取调度 (GH#9169) GALI PREM SAGAR
为
assert_eq
添加sort_results
参数 (GH#9130) Pavithra Eswaramoorthy将周添加到
parse_timedelta
(GH#9168) Matthew Rocklin警告:cloudpickle 并不总是确定性的 (GH#9148) Pavithra Eswaramoorthy
切换 parquet 默认引擎 (GH#9140) Jim Crist-Harif
使用确定性哈希与
_iLocIndexer
/_LocIndexer
(GH#9108) Fabien Aulaire在
to_parquet
pyarrow 中强制一致的架构 (GH#9131) Jim Crist-Harif
Bug 修复¶
修复
pyarrow.StringArray
的 pickle (GH#9170) Jim Crist-Harif修复 pyarrow 引擎中的并行元数据收集 (GH#9165) Richard (Rick) Zamora
改进
pyarrow
分区逻辑 (GH#9147) James Bourbeaupyarrow
8.0 分区修复 (GH#9143) James Bourbeau
文档¶
更好的SEO用于安装Dask和Dask DataFrame最佳实践 (GH#9178) Sarah Charlotte Johnson
更新文档中的logo页面 (GH#9167) Sarah Charlotte Johnson
在
map_partition
文档字符串中添加使用 pandas Series 的示例 (GH#9161) Alex-JG3更新文档主题以进行品牌重塑 (GH#9160) Sarah Charlotte Johnson
Dask DataFrames 文档的更好 SEO (GH#9128) Sarah Charlotte Johnson
维护¶
从下游库的推荐实践中移除 ensure_file (GH#9171) Matthew Rocklin
将最佳实践链接到 DataFrame-parquet (GH#9150) Tom Augspurger
修复
map_partitions
中func
参数描述的拼写错误 (GH#9149) Christopher Akiki取消
xfail
test_groupby_grouper_dispatch
(GH#9139) GALI PREM SAGAR暂时从分布式中导入清理夹具 (GH#9138) James Bourbeau
简化pyarrow parquet引擎中的分区逻辑 (GH#9041) Richard (Rick) Zamora
2022.05.2¶
发布于2022年5月26日
增强功能¶
为非 pandas 的
Grouper
对象添加一个调度,并在GroupBy
中使用它 (GH#9074) brandon-b-miller如果
read_parquet
和to_parquet
文件相交,则报错 (GH#9124) Jim Crist-Harif
文档¶
修复各种拼写错误 (GH#9126) Ryan Russell
维护¶
修复不稳定的
test_filter_nonpartition_columns
(GH#9127) Pavithra Eswaramoorthy将 gpuCI 的
RAPIDS_VER
更新为22.08
(GH#9120)在源码发布包中包含
conftest.py`
(GH#9115) Ben Beasley
2022.05.1¶
发布于2022年5月24日
新功能¶
添加
DataFrame.from_dict
类方法 (GH#9017) Matthew Powers向 Dask DataFrame 添加
from_map
函数 (GH#8911) Richard (Rick) Zamora
增强功能¶
改进
to_parquet
错误,追加分区重叠 (GH#9102) Jim Crist-Harif启用了用户定义的进程初始化函数 (GH#9087) ParticularMiner
在
map_partitions
错误中提及align_dataframes=False
选项 (GH#9075) Gabe Joseph向
dask.array.map_blocks()
添加enforce_ndim
关键字参数 (GH#8865) ParticularMiner实现
Series.GroupBy.fillna
/DataFrame.GroupBy.fillna
方法 (GH#8869) Pavithra Eswaramoorthy允许使用 Dask DataFrame 进行
fillna
(GH#8950) Pavithra Eswaramoorthy更新赋值的错误信息为1维dask数组 (GH#9036) Pavithra Eswaramoorthy
集合协议 (GH#8674) Doug Davis
围绕
pandas
ArrowStringArray
的补丁 (GH#9024) Jim Crist-Harif添加
p2p
洗牌选项 (GH#8836) Matthew Rocklin
Bug 修复¶
修复无列时的列投影 (GH#9106) Jim Crist-Harif
修复
from_map
中的列投影错误 (GH#9078) Richard (Rick) Zamora防止非数值dtypes的索引中出现空值 (GH#8963) Jorge López
修复
is_monotonic
方法以支持超过8个分区 (GH#9019) Julia Signell处理
from_map
的枚举和生成器输入 (GH#9066) Richard (Rick) Zamora恢复
is_dask_collection
;回退到之前的实现 (GH#9062) Doug Davis数组
setitem
硬掩码 (GH#9027) David Hassell
弃用¶
为
read_parquet
关键字参数chunksize
和aggregate_files
添加预弃用警告 (GH#9052) Richard (Rick) Zamora
文档¶
文档
map_partitions
处理args
与kwargs
的方式,以及partition_info
的使用 (GH#9084) Charles Blackmon-Luca更新自定义集合文档(利用新的集合协议)(GH#9097) Doug Davis
为创建和存储 Dask DataFrame 的文档提供更好的 SEO (GH#9098) Sarah Charlotte Johnson
在
imread
文档字符串中澄清分块 (GH#9082) Genevieve Buckley重新排列文档目录 (GH#9001) Matthew Rocklin
修正了
map_blocks()
文档字符串中关于关键字参数enforce_ndim
的内容 (GH#9071) ParticularMiner更新 DataFrame SQL 文档引用至其他库 (GH#9077) Charles Blackmon-Luca
更新关于创建和存储Dask DataFrame的页面 (GH#9025) Sarah Charlotte Johnson
维护¶
在许可证文件中包含
NUMPY_LICENSE.txt
(GH#9113) Ben Beasley在安装 nightly
pandas
时增加重试次数 (GH#9103) James Bourbeau在上游构建中强制使用夜间版本的
pyarrow
(GH#9095) Joris Van den Bossche改进
ensure_unicode
的对象处理和测试 (GH#9059) John A Kirkham在上游构建中强制使用夜间版本的
pyarrow
(GH#8993) Joris Van den Bossche对
is_dask_collection
的额外检查 (GH#9054) Doug Davis更新
ensure_bytes
(GH#9050) John A Kirkham添加文件末尾预提交钩子 (GH#9045) James Bourbeau
添加
codespell
预提交钩子 (GH#9040) James Bourbeau移除 HDFS 测试 (GH#9039) Jim Crist-Harif
修复不稳定的
test_reductions_2D
(GH#9037) Jim Crist-Harif防止 codecov 过早通知失败 (GH#9031) Jim Crist-Harif
仅在 macOS 上测试 Python 3.9 (GH#9029) Jim Crist-Harif
更新
to_timedelta
默认单位 (GH#9010) Pavithra Eswaramoorthy
2022.04.2¶
发布于2022年4月29日
亮点¶
此版本包括对 dask.dataframe.read_parquet
和 dask.dataframe.to_parquet
的几个弃用/破坏性API更改:
to_parquet
默认不再写入_metadata
文件。如果你想写入一个_metadata
文件,可以传入write_metadata_file=True
。read_parquet
现在默认使用split_row_groups=False
,这会导致在读取 parquet 数据集时,每个 parquet 文件对应一个 Dask 数据帧分区。如果你处理的是大型 parquet 文件,你可能需要设置split_row_groups=True
来减少分区大小。read_parquet
不再默认计算分区。如果你需要read_parquet
返回带有已知分区的数据框,请设置calculate_divisions=True
。read_parquet
已弃用gather_statistics
关键字参数。请改用calculate_divisions
关键字参数。read_parquet
已弃用require_extensions
关键字参数。请改用parquet_file_extension
关键字参数。
新功能¶
将
removeprefix
和removesuffix
添加为StringMethods
(GH#8912) Jorge López
增强功能¶
在
to_parquet
中调用fs.invalidate_cache
(GH#8994) Jim Crist-Harif将
to_parquet
默认值更改为write_metadata_file=None
(GH#8988) Jim Crist-Harif让 arg 减少传递
keepdims
(GH#8926) Julia Signell在
read_parquet
中将split_row_groups
的默认值更改为False
(GH#8981) Richard (Rick) Zamora改进
da.reshape
的NotImplementedError
消息 (GH#8987) Jim Crist-Harif简化
to_parquet
计算路径 (GH#8982) Jim Crist-Harif如果你尝试在 Dask 对象上使用
vindex
,则会引发错误 (GH#8945) Julia Signell当指定了预缓存方法时,避免使用
pre_buffer=True
(GH#8957) Richard (Rick) Zamorafrom_dask_array
使用blockwise
而不是合并图表 (GH#8889) Bryan Weber使用
pre_buffer=True
以支持 “pyarrow” Parquet 引擎 (GH#8952) Richard (Rick) Zamora
Bug 修复¶
修复由
blockwise
融合引起的dask-sql
错误 (GH#8989) Richard (Rick) Zamorato_parquet
对非字符串列名报错 (GH#8990) Jim Crist-Harif确保
da.roll
在形状为 0 时也能工作 (GH#8925) Julia Signell修复
set_index
的递归错误问题 (GH#8967) Paul Hobson当
produces_keys=True
时,字符串化BlockwiseDepDict
映射值 (GH#8972) Richard (Rick) Zamora在
DataFrame.from_delayed
中使用 DataFram`eIOLayer (GH#8852) Richard (Rick) Zamora检查
read_parquet
中in
谓词的值是否正确 (GH#8846) Bryan Weber在使用
np.linspace
进行read_sql_query
中的划分时指定dtype
(GH#8940) Cheun Hong
弃用¶
从
read_parquet
中弃用gather_statistics
(GH#8992) Richard (Rick) Zamora将
require_extension
更改为顶层parquet_file_extension
read_parquet
关键字参数 (GH#8935) Richard (Rick) Zamora
文档¶
在文档中更新
write_metadata_file
讨论 (GH#8995) Richard (Rick) Zamora更新
DataFrame.merge
文档字符串 (GH#8966) Pavithra Eswaramoorthy在
array.blockwise()
中为参数align_arrays
添加了描述 (GH#8977) ParticularMiner建议不要在数组的块轴上使用
map_block(drop_axis=...)
(GH#8921) ParticularMiner在文档中为代码片段添加复制按钮 (GH#8956) James Bourbeau
维护¶
在CI的分布式环境中添加
pytest-timeout
(GH#8986) Julia Signell改进
read_parquet
文档字符串格式 (GH#8971) Bryan Weber移除
pytest.warns(None)
(GH#8924) Pavithra Eswaramoorthy将 Python 3.10 作为支持的文档 (GH#8976) Eray Aslan
parse_timedelta
选项以强制显式单位 (GH#8969) crusaderkymypy
兼容性 (GH#8854) Paul Hobson为 Dask & Parquet 添加文档页面 (GH#8899) Jim Crist-Harif
添加配置以忽略 blame 中的 revs (GH#8933) Bryan Weber
2022.04.1¶
发布于2022年4月15日
增强功能¶
当
write_metadata_file=False
时,避免在 pyarrow 中收集 parquet 元数据 (GH#8906) Richard (Rick) Zamoradd.read_csv()
中通配符路径失败的更好错误信息(修复 #8878)(GH#8908) Roger Filmyer对于
dd.Series
上的非 ufunc 逐元素函数,返回da.Array
而不是dd.Series
(GH#8558) Julia Signell让
get_dummies
在map_partitions
中使用meta
计算 (GH#8898) Julia Signell掩码标量输入到
da.from_array
(GH#8895) David Hassell在
merge_asof
中为重复的kwargs
引发ValueError
(GH#8861) Bryan Weber
Bug 修复¶
使
is_monotonic
在某些分区为空时也能工作 (GH#8897) Julia Signell修复
da.from_array
中inline_array=False
时的自定义获取器 (GH#8903) Ian Rose修复
merge_asof
:如果left_on == right_on
,则删除索引列 (GH#8874) Gil Forsyth
弃用¶
警告用户
engine='auto'
将在未来发生变化 (GH#8907) Jim Crist-Harif从 parquet API 中移除
pyarrow-legacy
引擎 (GH#8835) Richard (Rick) Zamora
文档¶
添加关于
dask.array.dot
缺少参数out
的注释 (GH#8913) Francesco Andreuzzi更新
DataFrame.query
文档字符串 (GH#8890) Pavithra Eswaramoorthy
维护¶
不要在大整数数据上测试
da.prod
(GH#8893) Jim Crist-Harif在无互联网连接时失败的测试中添加
network
标记 (GH#8881) Paul Hobson修复 gpuCI GHA 版本 (GH#8891) Charles Blackmon-Luca
xfail
/skip
一些不稳定的distributed
测试 (GH#8887) Jim Crist-Harif从
ArrowDatasetEngine
中移除未使用的(已弃用的)代码 (GH#8885) Richard (Rick) Zamora为常用工具函数添加轻量类型检查,第二部分 (GH#8867) crusaderky
sample()
的限制文档 (GH#8858) Nadiem Sissouno
2022.04.0¶
发布于2022年4月1日
备注
这是第一个支持 Python 3.10 的版本
新功能¶
添加 Python 3.10 支持 (GH#8566) James Bourbeau
增强功能¶
在
dtype.itemsize
上添加检查以生成有用的错误 (GH#8860) Davide Gavio为常用工具函数添加轻量类型注解 (GH#8848) Matthew Rocklin
为
divisions
setter
添加健全性检查 (GH#8806) Jim Crist-Harif使用
Blockwise
和map_partitions
进行更多任务 (GH#8831) Bryan Weber
Bug 修复¶
修复
dataframe.merge_asof
以保留right_on
列 (GH#8857) Sarah Charlotte Johnson修复 pandas >= 1.3 在 32 位系统上的“Buffer dtype 不匹配”问题 (GH#8851) Ben Greiner
弃用¶
移除对 PyPy 的支持 (GH#8863) James Bourbeau
在运行时删除
setuptools
(GH#8855) crusaderky移除
dataframe.tseries.resample.getnanos
(GH#8834) Sarah Charlotte Johnson
文档¶
组织诊断和性能文档 (GH#8871) Naty Clementi
添加图像以解释
map_blocks
的drop_axis
选项 (GH#8868) ParticularMiner
维护¶
将 gpuCI 的
RAPIDS_VER
更新为22.06
(GH#8828)在 http 中恢复
test_parquet
(GH#8850) Bryan Weber简化 gpuCI 更新工作流程 (GH#8849) Charles Blackmon-Luca
2022.03.0¶
发布于2022年3月18日
新功能¶
Bag: 为水库采样添加实现 (GH#7636) Daniel Mesejo-León
将
ma.count
添加到 Dask 数组 (GH#8785) David Hassell将
to_parquet
的默认值更改为compression="snappy"
(GH#8814) Jim Crist-Harif在
dask.array.reduction
中添加weights
参数 (GH#8805) David Hassell添加
ddf.compute_current_divisions
以在排序后的索引或列上获取分区 (GH#8517) Julia Signell
增强功能¶
为未实现的合并
how
选项引发异常 (GH#8818) Naty Clementi将
Bag.map_partitions
移动到Blockwise
(GH#8646) Richard (Rick) Zamora改进格式错误的配置文件的错误信息 (GH#8801) Jim Crist-Harif
修订列投影优化以捕捉常见的 dask-sql 模式 (GH#8692) Richard (Rick) Zamora
空分区的有用错误 (GH#8789) Pavithra Eswaramoorthy
Scipy 1.8.0 兼容性:将私有类复制到 dask/array/stats.py (GH#8694) Julia Signell
在使用多种调度器时,如果其中一种是
distributed
,则发出警告 (GH#8700) Pedro Silva
Bug 修复¶
修复
read_parquet
中应用 != 过滤器的错误 (GH#8824) Richard (Rick) Zamora修复当直接传递 dask Index 时的
set_index
(GH#8680) Paul Hobson修复 tensordot 中无限制内存使用的问题 (GH#7980) Genevieve Buckley
如果 hdf 文件为空,不要在元数据创建时失败(GH#8809) Julia Signell
更新
clone_key("x")
以保留前缀 (GH#8792) crusaderky修复基于 pyarrow 的
read_parquet
中的“物理”列错误 (GH#8775) Richard (Rick) Zamora修复序列化错误 (GH#8786) Richard (Rick) Zamora
弃用¶
将诊断 bokeh 依赖项升级到 2.4.2 (GH#8791) Charles Blackmon-Luca
弃用
bcolz
支持 (GH#8754) Pavithra Eswaramoorthy完成将
map_overlap
默认边界kwarg
设为'none'
(GH#8743) Genevieve Buckley
文档¶
自定义集合示例文档修复 (GH#8807) Doug Davis
将
Series.str
、Series.dt
和Series.cat
访问器添加到文档中 (GH#8757) Sarah Charlotte Johnson修复
ddf.compute_current_divisions
的文档字符串 (GH#8793) Julia Signell状态页面上的仪表盘文档 (GH#8648) Naty Clementi
澄清重新分区文档字符串中的
kwarg
划分 (GH#8781) Sarah Charlotte Johnson更新 Docker 镜像以使用 ghcr.io (GH#8774) Jacob Tomlinson
维护¶
减少 gpuci
pytest
并行性 (GH#8826) GALI PREM SAGARabsolufy-imports
- 无相对导入 - PEP8 (GH#8796) Julia Signell整理数组测试中的
assert_eq
调用 (GH#8812) Julia Signell修复
test_describe_empty
以在没有全局-Werror
的情况下工作 (GH#8291) Michał Górny暂时在Windows上xfail graphviz测试 (GH#8794) Jim Crist-Harif
使用
packaging.parse
以实现md5
兼容性 (GH#8763) James Bourbeau在 FIPS 140-2 环境中使
tokenize
工作 (GH#8762) Jim Crist-Harif在打开时标记问题和PR为’需要分类’ (GH#8761) Julia Signell
指定操作版本并将
pull_request_target
更改为pull_request
(GH#8767) Julia Signell在
da.assert_eq
中使调度器kwarg
传递到子函数 (GH#8755) Julia Signell
2022.02.1¶
发布于2022年2月25日
新功能¶
在
dask.dataframe.pivot_table
中添加聚合函数first
和last
(GH#8649) Knut Nordanger为类似 pandas 的对象添加
datetime64
dtype
的std()
支持 (GH#8523) Ben Glossner将物化任务计数添加到
HighLevelGraph
和Layer
的 html repr 中 (GH#8589) kori73
增强功能¶
不允许迭代
DataFrameGroupBy
(GH#8696) Bryan Weber修复在空
DataFrame
上调用info()
后缺少换行符的问题 (GH#8727) Naty Clementi提升多数据框连接性能 (GH#8740) Holden Karau
为
Index
包含bool
类型 (GH#8732) Naty Clementi允许
ArrowDatasetEngine
子类覆盖分区写入时的 pandas->arrow 转换 (GH#8741) Joris Van den Bossche提高
da.diag()
和da.diagonal()
中 k-对角线提取的性能 (GH#8689) ParticularMinerTokenize
dataclasses
(GH#8557) Gabe Joseph更新
tokenize
以区别对待dict
和kwargs
(GH#8655) James Bourbeau
Bug 修复¶
修复
dask.array.roll()
中滚动偏移量与输入数组大小匹配时的错误 (GH#8723) ParticularMiner修复
normalize_function
dataclass
方法 (GH#8527) Sarah Charlotte Johnson修复零大小块的重新分块 (GH#8703) ParticularMiner
为可拾取性移动
sqlalchemy
连接的创建 (GH#8745) Julia Signell
弃用¶
放弃 Python 3.7 (GH#8572) James Bourbeau
弃用
iteritems
(GH#8660) James Bourbeau弃用
dataframe.tseries.resample.getnanos
(GH#8752) Sarah Charlotte Johnson为 pyarrow-legacy 引擎添加弃用警告 (GH#8758) Richard (Rick) Zamora
文档¶
更新变更日志中的链接拼写错误 (GH#8717) James Bourbeau
更新 Docker 示例以使用当前的最佳实践 (GH#8731) Jacob Tomlinson
更新文档以包含
distributed.Client.preload
(GH#8679) Bryan Weber文档每月社交会议 (GH#8595) Thomas Grainger
为Gen2访问添加RBAC/ACL文档,即安全主体 (GH#8748) Martin Thøgersen
使用
dask-sphinx-theme
中的 Dask 配置扩展 (GH#8751) Benjamin Zaitlen
维护¶
在CI中取消固定
coverage
(GH#8690) James Bourbeau为运行测试套件添加手动触发器 (GH#8716) James Bourbeau
Xfail
scheduler_HLG_unpack_import
; 不稳定的测试 (GH#8724) Mike McCarty暂时移除
scipy
上游 CI 构建 (GH#8725) James Bourbeau将预发布版本提升至高于稳定版本 (GH#8728) Charles Blackmon-Luca
将自定义排序函数逻辑移至内部
sort_values
(GH#8571) Charles Blackmon-Luca在文档需求中固定
cloudpickle
和scipy
(GH#8737) Julia Signell使标签器不删除标签,并在正确的位置查找文档 (GH#8746) Julia Signell
修复文档构建警告 (GH#8432) Kristopher Overholt
更新测试状态徽章 (GH#8747) James Bourbeau
修复 parquet
test_pandas_timestamp_overflow_pyarrow
测试 (GH#8733) Joris Van den Bossche仅在相关文件更改时运行PR构建 (GH#8756) Charles Blackmon-Luca
2022.02.0¶
发布于2022年2月11日
备注
这是支持 Python 3.7 的最后一个版本
新功能¶
在使用现有数组时,将
region
添加到to_zarr
中 (GH#8590) Chris Roat为
dask.dataframe.to_sql
添加engine_kwargs
支持 (GH#8609) Amir Kadivar为
read_json
添加include_path_column
参数 (GH#8603) Bryan Weber
增强功能¶
为
assert_eq
工具添加调度器选项 (GH#8610) Xinrong Meng类型注解,第一部分 (GH#8295) crusaderky
确实允许任何可迭代对象作为
meta
传递(GH#8629) Julia Signell在
to_parquet
中使用map_partitions
(Blockwise) (GH#8487) Richard (Rick) Zamora
Bug 修复¶
减少数组的结果不应依赖于其块结构 (GH#8637) ParticularMiner
在ACA代码路径中将占位符元数据传递给
map_partitions
(GH#8643) Richard (Rick) Zamora
弃用¶
弃用
is_monotonic
(GH#8653) James Bourbeau移除一些弃用项 (GH#8605) James Bourbeau
文档¶
修复内部链接并移除已弃用的功能 (GH#8715) Julia Signell
修复不平衡的反引号。 (GH#8693) Matthias Bussonnier
添加高级图形可视化文档 (GH#8483) Genevieve Buckley
更新
ProgressBar
out
参数的文档 (GH#8604) Pedro Silva改进
dask.config.set
的文档 (GH#8705) crusaderky在类型检查器中恢复对
mypy
的提及 (GH#8699) crusaderky
维护¶
在
get_dummies
测试中更新警告处理 (GH#8651) James Bourbeau添加一个github变更日志模板 (GH#8714) Julia Signell
更新 LICENSE.txt 中的年份 (GH#8665) David Hoese
更新
pre-commit
版本 (GH#8691) James Bourbeau在上游CI构建中包含
scipy
(GH#8681) James Bourbeau在CI中暂时固定
scipy < 1.8.0
(GH#8683) James Bourbeau在GPU CI中将
scipy
固定在1.8.0以下 (GH#8698) Julia Signell避免在
test_multi.py
中使用pytest.warns(None)
(GH#8678) James Bourbeau更新GHA并发作业取消 (GH#8652) James Bourbeau
使
test__get_paths
对site.PREFIXES
的设置具有鲁棒性 (GH#8644) James Bourbeau将 gpuCI PYTHON_VER 升级到 3.9 (GH#8642) Charles Blackmon-Luca
2022.01.1¶
发布于2022年1月28日
新功能¶
添加
dask.dataframe.series.view()
(GH#8533) Pavithra Eswaramoorthy
增强功能¶
更新
fastparquet
+pandas
1.4.0 的tz
(GH#8626) Martin Durant清理
pandas
兼容性的杂项测试 (GH#8623) Julia SignellPandas 兼容性:过滤稀疏警告 (GH#8621) Julia Signell
如果
meta
不是pandas
对象则失败 (GH#8563) Julia Signell使用
fsspec.parquet
模块以提高远程存储read_parquet
性能 (GH#8339) Richard (Rick) Zamora将 DataFrame ACA 聚合移动到 HLG (GH#8468) Richard (Rick) Zamora
在
DataFrameIOLayer
中添加有关原始函数调用的可选信息 (GH#8453) Richard (Rick) Zamora重构配置默认搜索路径检索 (GH#8573) James Bourbeau
在
Bag.to_dataframe
函数中添加optimize_graph
标志 (GH#8486) Maxim Lippeveld确保延迟输出操作仍然返回路径列表 (GH#8498) Julia Signell
Pandas 兼容性:修复
to_frame
的name
参数,使其不传递None
(GH#8554) Julia SignellPandas 兼容性:修复
axis=None
警告 (GH#8555) Julia Signell
Bug 修复¶
修复
groupby.cumsum
在按索引分组的序列中的问题 (GH#8588) Julia Signell修复
pandas
方法的derived_from
(GH#8612) Thomas J. Fan为
sort_values
强制使用布尔值ascending
(GH#8440) Charles Blackmon-Luca修复
__setitem__
索引的解析 (GH#8601) David Hassell避免在切片中除以零 (GH#8597) Doug Davis
弃用¶
将 (GH#8563) 中的
meta
错误降级为警告 (GH#8628) Julia SignellPandas 兼容性:当
pandas >= 1.4.0
时弃用append
(GH#8617) Julia Signell
文档¶
重构部署文档 (GH#8602) Jacob Tomlinson
维护¶
在CI中固定
coverage
(GH#8631) James Bourbeau将
cached_cumsum
导入从dask.utils
移动 (GH#8606) James Bourbeau将 gpuCI 的
RAPIDS_VER
更新为22.04
(GH#8600)更新
from_delayed
函数的 cocstring (GH#8576) Kirito1397处理
plot_width
/plot_height
的弃用 (GH#8544) Bryan Van de Ven移除不必要的
pyyaml
importorskip
(GH#8562) James Bourbeau在 DataFrame
assert_eq
中指定调度器 (GH#8559) Gabe Joseph
2022.01.0¶
发布于 2022 年 1 月 14 日
新功能¶
添加
DataFrame.nunique
(GH#8479) Sarah Charlotte Johnson添加
da.ndim
以匹配np.ndim
(GH#8502) Julia Signell
增强功能¶
仅在 NumPy 版本 >= 1.22 时显示
percentile
interpolation=
关键字警告 (GH#8564) Julia Signell当
limit
和"array.slicing.split-large-chunks"
为None
时,引发PerformanceWarning
(GH#8511) Julia Signell确保分区始终为元组 (GH#8393) Charles Blackmon-Luca
允许
bag.groupby
使用可调用的调度器 (GH#8492) Julia Signell在
read_bytes
中使字节块更均匀 (GH#8459) Martin Durant通过完全移除连接,提高了
matmul()
的效率(GH#8423) ParticularMiner在重塑dask数组时限制最大块大小 (GH#8124) Genevieve Buckley
fastparquet superthrift 的更改 (GH#8470) Martin Durant
Bug 修复¶
修复数组赋值中的布尔索引 (GH#8538) David Hassell
检测数组类对象上的默认
dtype
(GH#8501) aeisenbarth修复
optimize_blockwise
重复依赖名称的错误 (GH#8542) Richard (Rick) Zamora更新
DataFrame.GroupBy.apply
和 transform 的警告 (GH#8507) Sarah Charlotte Johnson在
Delayed
中跟踪 HLG 层名称 (GH#8452) Gabe Joseph修复单项
nanmin
和nanmax
归约 (GH#8484) Julia Signell使
read_csv
在存在注释的情况下,通过comment
kwarg
也能正常工作 (GH#8433) Julia Signell
弃用¶
将
interpolation
替换为method
,并将method
替换为internal_method
(GH#8525) Julia Signell移除每日股票演示工具 (GH#8477) James Bourbeau
文档¶
修复更改日志部分的超链接 (GH#8534) Aneesh Nema
为保持一致性,对“single-machine scheduler”进行连字符处理 (GH#8519) Deepyaman Datta
在
slicing.py
中规范化doctests的空白 (GH#8512) Maren Westermann最佳实践存储行拼写错误 (GH#8529) Michael Delgado
更新图表 (GH#8401) Sarah Charlotte Johnson
从
read_parquet
文档字符串中的split_row_groups
移除pyarrow
专属引用 (GH#8490) Naty Clementi
维护¶
移除过时的
LocalFileSystem
测试,这些测试在fsspec>=2022.1.0
下失败 (GH#8565) Richard (Rick) Zamora调整:“RuntimeWarning: 在倒数中遇到无效值” (GH#8561) crusaderky
修复
DataFrame.sem
的skipna=None
(GH#8556) Julia Signell修复
PANDAS_GT_140
(GH#8552) Julia Signell使用 HLG 的集合必须始终实现
__dask_layers__
(GH#8548) crusaderky解决
import llvmlite
中的竞争条件 (GH#8550) crusaderky为
pyyaml
设置最低版本 (GH#8545) Gaurav Sheni在环境中添加
nodefaults
以修复tiledb
+ mac 问题 (GH#8505) Julia Signell为
setuptools
设置上限 (GH#8509) Julia Signell添加工作流/配方以生成 Dask 夜间版本 (GH#8469) Charles Blackmon-Luca
将 gpuCI 的
CUDA_VER
升级到 11.5 (GH#8489) Charles Blackmon-Luca
2021.12.0¶
发布于2021年12月10日
新功能¶
添加
Series
和Index
的is_monotonic*
方法 (GH#8304) Daniel Mesejo-León
增强功能¶
按块
map_partitions
与partition_info
(GH#8310) Gabe Joseph更好的错误消息,用于具有未知块大小的数组 (GH#8436) Doug Davis
在 Groupby 类内部使用
by
代替index
(GH#8441) Julia Signell允许为
sort_values
使用自定义排序函数 (GH#8345) Charles Blackmon-Luca当统计信息和分区未对齐时,向
read_parquet
添加警告 (GH#8416) Richard (Rick) Zamora
Bug 修复¶
修复
map_blocks
在name
生成中未使用自身参数的问题 (GH#8462) David Hoese修复读取空parquet文件时的索引错误 (GH#8410) Sarah Charlotte Johnson
修复写入分区parquet数据时的可空类型错误 (GH#8400) Richard (Rick) Zamora
修复CSV头部错误 (GH#8413) Richard (Rick) Zamora
修复
nanmin
/nanmax
中空块导致异常的问题 (GH#8375) Boaz Mohar
弃用¶
弃用
map_blocks
的token
关键字参数 (GH#8464) James Bourbeaumap_overlap
中 boundary kwarg 默认值的弃用警告 (GH#8397) Genevieve Buckley
文档¶
澄清
block_info
文档 (GH#8425) Genevieve Buckley来自alt文本冲刺的输出 (GH#8456) Sarah Charlotte Johnson
更新演讲和演示文稿 (GH#8370) Naty Clementi
更新文档“付费支持”部分中的 Anaconda 链接 (GH#8427) Martin Durant
修复 CuPy doctest 错误 (GH#8412) Genevieve Buckley
维护¶
将 Bokeh 最小版本提升至 2.1.1 (GH#8431) Bryan Van de Ven
修复以下
fsspec=2021.11.1
版本 (GH#8428) Martin Durant将
dask/ml.py
添加到 pytest 排除列表中 (GH#8414) Genevieve Buckley将 gpuCI 的
RAPIDS_VER
更新为22.02
(GH#8394)取消固定
graphviz
并在 environment-3.7 中改进包管理 (GH#8411) Julia Signell
2021.11.2¶
发布于2021年11月19日
仅每日运行 gpuCI 更新脚本 (GH#8404) Charles Blackmon-Luca
在
assert_eq
中实际忽略索引 (GH#8396) Gabe Joseph确保单分区连接
divisions
是tuple
(GH#8389) Charles Blackmon-Luca尝试使划分行为更清晰 (GH#8379) Julia Signell
修复
set_index
partition_size
参数描述中的拼写错误 (GH#8384) FredericOdermatt在
single_partition_join
中使用blockwise
(GH#8341) Gabe Joseph使用更明确的键值参数 (GH#8354) Boaz Mohar
修复带有可空布尔
dtype
的 DataFrame 的.loc
(GH#8368) Marco Rossi移除一些文档构建警告 (GH#8369) Boaz Mohar
在数组API文档中包含属性 (GH#8356) Julia Signell
修复上游的 Zarr (GH#8367) Julia Signell
固定
graphviz
以避免 Windows 和 Python 3.7 的问题 (GH#8365) Julia Signell从模块顶部导入
graphviz.Diagraph
,而不是从dot
导入 (GH#8363) Julia Signell
2021.11.0¶
发布于2021年11月5日
Fx
required_extension
在read_parquet
中的行为 (GH#8351) Richard (Rick) Zamora在
map_partitions
中添加align_dataframes
以广播作为参数传递的数据框 (GH#6628) Julia Signell在
dask.dataframe.loc
中更好地处理键数组/系列 (GH#8254) Julia Signell为
to_parquet
添加name_function
选项 (GH#7682) Matthew Powers删除
environment-latest.yml
并更新到 Python 3.9 (GH#8275) Julia Signell在CI中要求更新的
s3fs
(GH#8336) James BourbeauGroupby 滚动 (GH#8176) Julia Signell
为
dask.visualize
添加更多排序诊断 (GH#7992) Erik Welchdemo_tuples
生成了格式错误的HighLevelGraph
(GH#8325) crusaderkyDask 日历应显示本地时间的事件 (GH#8312) Genevieve Buckley
修复不稳定的
test_interrupt
(GH#8314) crusaderky弃用
AxisError
(GH#8305) crusaderky修复扩展文档中 cuDF 的名称。(GH#8311) Vyas Ramasubramani
将单个等号运算符(=)添加到 parquet 过滤器中 (GH#8300) Ayush Dattagupta
在
read_parquet
中改进对 Spark 输出的支持 (GH#8274) Richard (Rick) Zamora添加
dask.ml
模块 (GH#6384) Matthew RocklinCI 修复 (GH#8298) James Bourbeau
使切片错误与NumPy匹配(GH#8248) Julia Signell
修复新sphinx主题下的API文档渲染错误 (GH#8296) Julia Signell
将
block
属性替换为blockview
以对块进行类似数组的操作 (GH#8242) Davis Bennett弃用
file_path
并使其能够在笔记本内保存 (GH#8283) Julia Signell
2021.10.0¶
发布于2021年10月22日
da.store
用于创建格式良好的HighLevelGraph
(GH#8261) crusaderkyCI: 在上游构建中强制使用夜间
pyarrow
(GH#8281) Joris Van den Bossche移除
chest
(GH#8279) James Bourbeau如果未安装可选依赖项,则跳过doctests (GH#8258) Genevieve Buckley
更新
tmpdir
和tmpfile
上下文管理器文档字符串 (GH#8270) Daniel Mesejo-León在doctests中注销回调 (GH#8276) James Bourbeau
过期标签 GitHub 操作 (GH#8244) Genevieve Buckley
客户端关闭方法出现了两次 (GH#8273) German Shiklov
添加 pre-commit 到测试需求 (GH#8257) Genevieve Buckley
在
fastparquet
引擎中重构read_metadata
(GH#8092) Richard (Rick) Zamora在
from_zarr
中支持Path
对象 (GH#8266) Samuel Gaist使嵌套重定向工作 (GH#8272) Julia Signell
如果
verbose
在 info 中为True
,则将memory_usage
设置为True
(GH#8222) Kinshuk Dua从 sphinx toctree 中移除单独的 API 文档页面 (GH#8238) James Bourbeau
在gufunc
signature
中忽略空白 (GH#8267) James Bourbeau添加更新 gpuCI 的工作流程 (GH#8215) Charles Blackmon-Luca
DataFrame.head
在只有一个分区时不应该警告 (GH#8091) Pankaj Patil如果未安装
pyarrow
,则忽略箭头 doctests (GH#8256) Genevieve Buckley修复
debugging.html
重定向 (GH#8251) James Bourbeau修复单分区数据框的空值排序 (GH#8225) Charles Blackmon-Luca
修复
setup.html
重定向 (GH#8249) Florian Jetter在 CI 中运行
pyupgrade
(GH#8246) crusaderky修复上游CI构建中的标签拼写错误 (GH#8237) James Bourbeau
在 DataFrame.assign 中添加对“依赖”列的支持 (GH#8086) Suriya Senthilkumar
将Dask键的NumPy数组添加到
Array
(GH#7922) Davis Bennett调整从
Executor
中获取_max_workers
(GH#8228) John A Kirkham在
delayed
最佳实践文档中更新函数签名 (GH#8231) Vũ Trung Đức文档重组 (GH#7984) Julia Signell
修复
df.quantile
在所有缺失数据上的问题 (GH#8129) Julia Signell添加
tokenize.ensure-deterministic
配置选项 (GH#7413) Hristo Georgiev使用
inclusive
而不是closed
与pandas>=1.4.0
和pd.date_range
(GH#8213) Julia Signell将
dask-gateway
、Coiled 和 Saturn-Cloud 添加到 Dask 设置工具列表中 (GH#7814) Kristopher Overholt在序列化
HighLevelGraph
层时,确保现有的 futures 作为 deps 传递 (GH#8199) Jim Crist-Harif确保单分区合并的分区是左合并 (GH#8162) Julia Signell
在
pyarrow
parquet 引擎中重构read_metadata
(GH#8072) Richard (Rick) Zamora在
map_blocks
和map_overlap
中支持负数的drop_axis
(GH#8192) Gregory R. Lee修复上游测试 (GH#8205) Julia Signell
通过 Series 添加标量项赋值支持 (GH#8195) Charles Blackmon-Luca
在
dask.bag
的all
、any
、count
方法的文档字符串中添加了一些基本示例 (GH#7630) Nathan Danielsen不要让上游报告依赖于提交信息 (GH#8202) James Bourbeau
确保上游 CI cron 作业运行 (GH#8200) James Bourbeau
使用
pytest.param
来正确标记特定参数的 GPU 测试 (GH#8197) Charles Blackmon-Luca将
test_set_index
添加到在 gpuCI 上运行的测试中 (GH#8198) Charles Blackmon-Luca抑制
tmpfile
OSError (GH#8191) James Bourbeau在
set_partitions_pre
中使用s.isna
代替 ``pd.isna(s)``(修复 cudf CI)(GH#8193) Charles Blackmon-Luca为
test-upstream
失败打开一个问题 (GH#8067) Wallace Reis修复在调用
pyarrow.parquet.read_metadata
时的to_parquet
错误 (GH#8186) Richard (Rick) Zamora在
sort_values
中添加对空值的处理 (GH#8167) Charles Blackmon-Luca为 gpuCI 更新
RAPIDS_VER
(GH#8184) Charles Blackmon-LucaDispatch 为延迟注册的处理程序遍历 MRO (GH#8185) Jim Crist-Harif
在
DataFrame.from_delayed
中保留HighLevelGraphs
(GH#8174) Gabe Joseph弃用 Dask 系列重命名的
inplace
参数 (GH#8136) Marcel Coetzee修复与
pandas > 1.3.0
的兼容性滚动问题 (GH#8150) Julia Signell当对未知块进行
setitem
时引发错误 (GH#8166) Julia Signell在进行
Index.to_series
时包含分区 (GH#8165) Julia Signell
2021.09.1¶
发布于2021年9月21日
修复
groupby
以适应未来的 pandas (GH#8151) Julia Signell移除测试中不再需要的警告过滤器 (GH#8155) Julia Signell
在本地诊断文档中添加诊断可视化函数的链接 (GH#8157) David Hoese
将
datetime_is_numeric
添加到dataframe.describe
(GH#7719) Julia Signell移除对
pd.Int64Index
的引用,以应对即将到来的弃用 (GH#8144) Julia Signell如果需要,使用
loc
进行系列__get_item__
(GH#7953) Julia Signell特别忽略空切片的均值警告 (GH#8125) Julia Signell
跳过 pandas >= 1.3.3 的
groupby
nunique
测试 (GH#8142) Julia Signell为
sort_values
实现ascending
参数 (GH#8130) Charles Blackmon-Luca替换
operator.getitem
(GH#8015) Naty Clementi弃用
zero_broadcast_dimensions
和homogeneous_deepmap
(GH#8134) SnkSynthesis允许
scheduler
成为一个Executor
(GH#8112) John A Kirkham处理
asarray
/asanyarray
情况,其中like
是一个dask.Array
(GH#8128) Peter Andreas Entschev在
asarray
和asanyarray
的定义中添加dtype
和order
(GH#8106) Julia Signell弃用
dask.dataframe.Series.__contains__
(GH#7914) Julia Signell修复
_wrapped_qr
中like
-数组的边缘情况 (GH#8122) Peter Andreas Entschev弃用
boundary_slice
关键字参数:pandas 兼容的kind
(GH#8037) Julia Signell
2021.09.0¶
发布于2021年9月3日
减少打开的文件 (GH#7303) Julia Signell
将
FileNotFound
添加到预期的 http 错误中 (GH#8109) Martin Durant将
DataFrame.sort_values
添加到 API 文档 (GH#8107) Benjamin Zaitlen切换到
dask.order
:有时更积极 (GH#7929) Erik Welch在CI中添加pytest颜色 (GH#8090) James Bourbeau
为 Dataframe 的 copy 方法添加了
deep
参数,并将其限制为False
(GH#8068) João Paulo Lacerda修复配置文档中的拼写错误 (GH#8104) Robert Hales
更新
DataFrame.query
文档字符串中的格式 (GH#8100) James Bourbeau取消
sparse
测试的 xfail 状态以用于 0.13.0 版本发布 (GH#8102) James Bourbeau为 DataFrame 和 Series 添加 axes 属性 (GH#8069) Jordan Jensen
在
da.unique
中添加 CuPy 支持(仅限值) (GH#8021) Peter Andreas Entschevsparse.zeros_like
的单元测试(xfailed)(GH#8093) crusaderky在数组创建函数中添加显式的
like
关键字参数支持 (GH#8054) Peter Andreas Entschev分离 Array 和 DataFrame 的 mindeps 构建 (GH#8079) James Bourbeau
将
percentile_dispatch
分叉到dask.array
(GH#8083) GALI PREM SAGAR确保
filepath
存在于to_parquet
(GH#8057) James Bourbeau在
test_scheduler_highlevel_graph_unpack_import
中更新调度器插件的使用 (GH#8080) James Bourbeau将
DataFrame.shuffle
添加到 API 文档 (GH#8076) Martin Fleischmann按字母顺序排列需求 (GH#8073) John A Kirkham
2021.08.1¶
发布于2021年8月20日
为
read_parquet
添加ignore_metadata_file
选项(仅支持pyarrow-dataset
和fastparquet
) (GH#8034) Richard (Rick) Zamora在开发文档中添加对
pytest-xdist
的引用 (GH#8066) Julia Signell在
to_datetime
中包含tz
到元数据 (GH#8000) Julia SignellCI 基础设施文档 (GH#7985) Benjamin Zaitlen
在
assert_eq
检查中包含无效的 DataFrame 键 (GH#8061) James Bourbeau在创建 DataFrame 时使用
__class__
(GH#8053) Mads R. B. Kristensen在 gpuCI 构建中使用
distributed
的开发版本 (GH#7976) James Bourbeau忽略 gufunc
signature
(GH#8049) James Bourbeau 中的空白移动 pandas 导入和百分位分派重构 (GH#8055) GALI PREM SAGAR
添加颜色以表示高层次的图层类型 (GH#7974) Freyam Mehta
上游实例修复 (GH#8060) Jacob Tomlinson
添加
dask.widgets
并将 HTML reprs 迁移到jinja2
(GH#8019) Jacob Tomlinson移除
wrap_func_like_safe
,在 NumPy >= 1.17 中不再需要 (GH#8052) Peter Andreas Entschev修复线程调度器内存反压回归 (GH#8040) David Hoese
添加百分位数调度 (GH#8029) GALI PREM SAGAR
在
groupby
中使用公开文档化的属性obj
而不是私有属性_selected_obj
(GH#8038) GALI PREM SAGAR指定从
import rechunk
的模块(GH#8039)`Illviljan`_在某些情况下使用
dict
来存储 {nan,}arg{min,max} 的数据 (GH#8014) Peter Andreas Entschev修复
read_pandas
中blocksize
描述的格式 (GH#8047) Louis Maddox修复文档中的“point” -> “pointers”拼写错误 (GH#8043) David Chudzicki
2021年8月¶
发布于2021年8月13日
修复
to_orc
延迟计算行为 (GH#8035) Richard (Rick) Zamora不要在
compute_as_if_collection
中转换为低级任务图 (GH#7969) James Bourbeau修复hdf的多文件读取 (GH#8033) Julia Signell
解决
distributed
测试中的警告 (GH#8025) James Bourbeau更新
to_orc
集合名称 (GH#8024) James Bourbeau对于传递给
to_datetime
的不可索引参数,引发NotImplementedError
(GH#7989) Doug Davis确保我们在
distributed
中出现警告时报错(GH#8002) James Bourbeau为 graphviz 高级图表添加工具提示 (GH#7973) Freyam Mehta
关闭2021用户调查 (GH#8007) Julia Signell
将CuPy测试重新组织到多个文件中 (GH#8013) Peter Andreas Entschev
重构并扩展 Dask-Dataframe ORC API (GH#7756) Richard (Rick) Zamora
如果
enforce=False
,不要强制列 (GH#7916) Julia Signell修复
map_overlap
在drop_axis
不是None
时的修剪行为 (GH#7894) Gregory R. Lee将 gpuCI CuPy 测试标记为不稳定 (GH#7994) Peter Andreas Entschev
避免在
to_csv
和to_parquet
中使用Delayed
(GH#7968) Matthew Rocklin使用
pytest.warns
而不是 raises 来检查 parquet 引擎的弃用 (GH#7993) Joris Van den Bossche在 gpuCI 中更新
RAPIDS_VER
至 21.10 (GH#7991) Charles Blackmon-Luca为
pyarrow>=5
添加pyarrow-legacy
测试覆盖 (GH#7988) Richard (Rick) Zamora在
to_parquet
和read_parquet
中允许pyarrow>=5
(GH#7967) Richard (Rick) Zamora当 NumPy < 1.20 可用时跳过需要 NEP-35 的 CuPy 测试 (GH#7982) Peter Andreas Entschev
将
tail
和head
添加到SeriesGroupby
(GH#7935) Daniel Mesejo-León更新每月会议的 Zoom 链接 (GH#7979) James Bourbeau
添加 gpuCI 构建脚本 (GH#7966) Charles Blackmon-Luca
弃用
daily_stock
工具 (GH#7949) James Bourbeau将
distributed.nanny
添加到配置参考文档中 (GH#7955) James Bourbeau需要 NumPy 1.18+ 和 Pandas 1.0+ (GH#7939) John A Kirkham
2021年7月2日¶
发布于2021年7月30日
备注
这是最后一个支持 NumPy 1.17 和 pandas 0.25 的版本。从下一个版本开始,NumPy 1.18 和 pandas 1.0 将成为最低支持版本。
将
dask.array
SVG 添加到 HTML 表示中 (GH#7886) Freyam Mehta避免在
to_parquet
中使用Delayed
(GH#7958) Matthew Rocklin在CI中暂时固定
pyarrow<5
(GH#7960) James Bourbeau为顶层
ucx
和rmm
配置值添加弃用警告 (GH#7956) James Bourbeau从doctests中移除跳过(4 of 6)(GH#7865) Zhengnan Zhao
从doctests中移除跳过(5 of 6)(GH#7864) Zhengnan Zhao
为
da.diff
添加了缺失的 prepend/append 功能 (GH#7946) Peter Andreas Entschev将 graphviz 字体系列更改为 sans (GH#7931) Freyam Mehta
修复 read-csv 名称 - 当路径不同时,为任务使用不同的名称 (GH#7942) Julia Signell
更新
ucx
和rmm
更改的配置参考 (GH#7943) James Bourbeau为
__setitem__
添加元支持 (GH#7940) Peter Andreas EntschevNEP-35 对
slice_with_int_dask_array
的支持 (GH#7927) Peter Andreas Entschev在CI中取消固定fastparquet (GH#7928) James Bourbeau
从doctests中移除跳过(3 of 6)(GH#7872) Zhengnan Zhao
2021.07.1¶
发布于2021年7月23日
使数组
assert_eq
检查 dtype (GH#7903) Julia Signell从doctests中移除跳过(6 of 6)(GH#7863) Zhengnan Zhao
从actors文档中移除实验性功能警告 (GH#7925) Matthew Rocklin
从doctests中移除跳过(2 of 6)(GH#7873) Zhengnan Zhao
分离数组和包 API (GH#7917) Julia Signell
实现惰性
Array.__iter__
(GH#7905) Julia Signell清理我们无意中迭代数组的地方 (GH#7913) Julia Signell
为 DataFrame 缩减添加
numeric_only
关键字参数 (GH#7831) Julia Signell为GPU测试添加pytest标记 (GH#7876) Charles Blackmon-Luca
在
dask.array
中添加对histogram2d
的支持 (GH#7827) Doug Davis从doctests中移除跳过(1 of 6)(GH#7874) Zhengnan Zhao
为高级图形的 Graphviz 输出添加节点大小缩放 (GH#7869) Freyam Mehta
更新旧的 Bokeh 链接 (GH#7915) Bryan Van de Ven
在CI中临时固定
fastparquet
(GH#7907) James Bourbeau将
dask.array
导入添加到进度条文档中 (GH#7910) Fabian Gebhart为每个 DataFrame API 函数和方法使用单独的文件 (GH#7890) Julia Signell
修复
pyarrow-dataset
排序错误 (GH#7902) Richard (Rick) Zamora泛化唯一聚合 (GH#7892) GALI PREM SAGAR
在使用
pd.Grouper
时引发NotImplementedError
(GH#7857) Ruben van de Geer在
read_parquet
中添加aggregate_files
参数以启用多文件分区 (GH#7557) Richard (Rick) Zamora取消
xfail
test_daily_stock
(GH#7895) James Bourbeau更新访问配置文档 (GH#7837) Naty Clementi
使用打包进行版本比较 (GH#7820) Elliott Sales de Andrade
在
merge_asof
中处理无限循环 (GH#7842) gerrymanoim
2021年7月¶
发布于2021年7月9日
在上游CI构建中包含
fastparquet
(GH#7884) James BourbeauBlockwise: 处理非字符串常量依赖 (GH#7849) Mads R. B. Kristensen
fastparquet
现在支持新的时间类型,包括纳秒精度 (GH#7880) Martin Durant在
ArrowDatasetEngine
中追加时避免使用ParquetDataset
API (GH#7544) Richard (Rick) Zamora为
test_shuffle_priority
添加重试逻辑 (GH#7879) Richard (Rick) Zamora在CI中使用严格的通道优先级 (GH#7878) James Bourbeau
支持嵌套
dask.distributed
导入 (GH#7866) Matthew Rocklin应该只检查模块名称,而不是整个目录文件路径 (GH#7856) Genevieve Buckley
由于 https://github.com/dask/fastparquet/pull/623 (GH#7875) 的更新 Martin Durant
da.eye
修复chunks=-1
(GH#7854) Naty Clementi暂时 xfail
test_daily_stock
(GH#7858) James Bourbeau在
SimpleShuffleLayer
中设置优先级注解 (GH#7846) Richard (Rick) Zamora块状化:字符串化常量键输入 (GH#7838) Mads R. B. Kristensen
允许在
@guvectorize
中混合使用 dask 和 numpy 数组 (GH#6863) Julia Signell在计算其大小时,不要对 shuffle 组的字典结果进行采样 (GH#7834) Florian Jetter
修复 scipy 测试 (GH#7841) Julia Signell
确定性地标记化
datetime.date
(GH#7836) James Bourbeau将
sample_rows
添加到read_csv
类似的函数中 (GH#7825) Martin Durant修复
config.deserialize
文档字符串中的拼写错误 (GH#7830) Geoffrey Lentner在
test_dataframe_picklable
中移除警告过滤器 (GH#7822) James Bourbeau改进 ``histogramdd``(用于处理输入为数组序列的情况)。(GH#7634) Doug Davis
将
PY_VERSION
设为私有 (GH#7824) James Bourbeau
2021.06.2¶
发布于2021年6月22日
layers.py
比较parts_out
与set(self.parts_out)
(GH#7787) Genevieve Buckley使
check_meta
更好地理解 pandas 的数据类型 (GH#7813) Julia Signell移除“教育资源”文档页面 (GH#7818) James Bourbeau
2021.06.1¶
发布于2021年6月18日
在 dask.org 上用 ‘Supported By’ 部分替换资金页面 (GH#7817) James Bourbeau
添加初始弃用工具 (GH#7810) James Bourbeau
在显式使用
dtype=
的 ufuncs 中强制保持 dtype 不变 (GH#7808) Doug Davis将 Coiled 添加到付费支持组织列表中 (GH#7811) Kristopher Overholt
对
Layer
和HighLevelGraph
的 HTML repr 进行了小调整 (GH#7812) Genevieve Buckley为HLG HTML repr添加暗模式支持 (GH#7809) Jacob Tomlinson
移除旧分布式 (GH#7801) 的兼容性条目 Elliott Sales de Andrade
HighLevelGraph
层的 HTML repr 实现 (GH#7763) Genevieve Buckley更新默认的
blockwise
令牌以避免 DataFrame 列名冲突 (GH#6546) James Bourbeau使用调度
concat
进行merge_asof
(GH#7806) Julia Signell修复上游频率测试 (GH#7795) Julia Signell
使用标准库中的更多上下文管理器 (GH#7796) James Bourbeau
简化parquet测试中的跳过 (GH#7802) Elliott Sales de Andrade
移除过时的 bokeh 检查 (GH#7804) Elliott Sales de Andrade
更多测试覆盖率上传 (GH#7799) James Bourbeau
从
dask/__init__.py
中移除ImportError
捕获 (GH#7797) James Bourbeau允许
DataFrame.join()
接受一个 DataFrame 列表进行合并 (GH#7578) Krishan Bhasin修复
dask.array.linspace
中的最大递归深度异常 (GH#7667) Daniel Mesejo-León修复文档链接 (GH#7794) Julia Signell
初始
da.select()
实现和测试 (GH#7760) Gabriel Miretti层必须实现
get_output_keys
方法 (GH#7790) Genevieve Buckley不要在分区中包含或期望
freq
(GH#7785) Julia SignellHighLevelGraph
抽象层用于map_overlap
(GH#7595) Genevieve Buckley始终在
drop
中包含 kwarg 名称 (GH#7784) Julia Signell仅在需要时对中位数进行重新分块 (GH#7782) Julia Signell
将
add_(prefix|suffix)
添加到 DataFrame 和 Series (GH#7745) tsuga将
read_hdf
移动到Blockwise
(GH#7625) Richard (Rick) Zamora将
Layer.get_output_keys
正式设为抽象方法 (GH#7775) Genevieve Buckley非dask数组和
ravel_multi_index
中的广播 (GH#7594) Gabe Joseph修复parquet覆盖中以“/”结尾的路径 (GH#7773) Martin Durant
修复调用
.visualize()
时filename=None
的问题 (GH#7740) Freyam Mehta为
SubgraphCallable
生成唯一名称 (GH#7637) Bruce Merry在 CI 中将
fsspec
固定到2021.5.0
(GH#7771) James Bourbeau如果在
from_delayed
中提供了元数据,则延迟评估图表(GH#7769)`Florian Jetter`_为
DatetimeTZDtype
添加meta
支持 (GH#7627) gerrymanoim为自动PR标签添加分派标签 (GH#7701) James Bourbeau
修复HDFS测试 (GH#7752) Julia Signell
2021.06.0¶
发布于2021年6月4日
在
rewrite_blockwise
中从图键中移除抽象令牌 (GH#7721) Richard (Rick) Zamora确保csv文件
project_columns
中的列顺序正确 (GH#7761) Richard (Rick) Zamora重命名内部循环变量以避免重复 (GH#7741) Boaz Mohar
不要从
to_zarr
返回延迟对象 (GH#7738) Chris Roat数组:在
apply_gufunc
中正确的输出数量 (GH#7669) Gabe Joseph使用
da.blockwise
重写da.fromfunction
(GH#7704) John A Kirkham将
make_meta_util
重命名为make_meta
(GH#7743) GALI PREM SAGAR如果请求的分区少于输入分区,则在洗牌前重新分区 (GH#7715) Vibhu Jawa
块级处理:处理常量键输入 (GH#7734) Mads R. B. Kristensen
在
apply_gufunc
中添加了 raise (GH#7744) Boaz Mohar在CI中显示失败的测试总结 (GH#7735) Genevieve Buckley
sizeof
在 Python 3.9 中设置 (GH#7739) Mads R. B. Kristensen如果在
dataframe.__getitem__
中使用 pandas 的类似日期时间的字符串,则发出警告(GH#7749) Julia Signell突出显示
client.dashboard_link
(GH#7747) Genevieve Buckley更简单的订阅Google日历链接 (GH#7733) Genevieve Buckley
在Jupyter笔记本中自动显示图形可视化 (GH#7716) Genevieve Buckley
在API文档中为
unify_chunks
添加autofunction
(GH#7730) James Bourbeau
2021.05.1¶
发布于2021年5月28日
Pandas 兼容性 (GH#7712) Julia Signell
修复
optimize_dataframe_getitem
错误 (GH#7698) Richard (Rick) Zamora更新文档中的
make_meta
导入 (GH#7713) Benjamin Zaitlen在
support.rst
中添加 Slack 加入链接 (GH#7679) Naty Clementi移除未使用的字母变量 (GH#7700) James Bourbeau
修复
object
情况下的元创建 (GH#7586) GALI PREM SAGAR为
union_categoricals
添加调度 (GH#7699) GALI PREM SAGAR合并数组
Dispatch
对象 (GH#7505) James Bourbeau将 DataFrame
dispatch.registers
移动到它们自己的文件中 (GH#7503) Julia Signell修复了
dataclasses
中init=False
的延迟问题 (GH#7656) Julia Signell允许列名为
divisions
(GH#7605) Julia Signell带有未知块的堆栈和数组 (GH#7562) Chris Roat
推广2021年Dask用户调查 (GH#7694) Genevieve Buckley
修复
DataFrame.set_index()
中的拼写错误 (GH#7691) James Lamb清理数组 API 参考链接 (GH#7684) David Hoese
接受
flip
的axis
元组以与 NumPy 保持一致 (GH#7675) Andrew Champion更新
pre-commit
钩子版本 (GH#7676) James Bourbeau清理
to_zarr
文档字符串 (GH#7683) David Hoese修复
read_orc
的文档字符串 (GH#7678) Justus Magin文档
ipyparallel
和mpi4py
的concurrent.futures
(GH#7665) John A Kirkham更新测试以支持 CuPy 9 (GH#7671) Peter Andreas Entschev
修复了一些
HighLevelGraph
文档中的不准确之处 (GH#7662) Mads R. B. Kristensen修复 Series
getitem
错误消息中的拼写错误 (GH#7659) Maisie Marshall
2021.05.0¶
发布于2021年5月14日
删除已弃用的
kind
关键字参数以符合 pandas 1.3.0 (GH#7653) Julia Signell修复 DataFrame 列投影中的错误 (GH#7645) Richard (Rick) Zamora
打包时合并全局注解 (GH#7565) Mads R. B. Kristensen
避免在 pandas
set_categories
中使用inplace=
(GH#7633) James Bourbeau将 Dask-Dataframe 的 active-fusion 默认值更改为
False
(GH#7620) Richard (Rick) Zamora数组:从
RandomState
中移除多余代码 (GH#7487) Gabe Joseph在
others=None
时实现str.concat
(GH#7623) Daniel Mesejo-León修复沙盒环境中的
dask.dataframe
(GH#7601) Noah D. Brenowitz对
cupyx.scipy.linalg
的支持 (GH#7563) Benjamin Zaitlen将
timeseries
和 daily-stock 移动到Blockwise
(GH#7615) Richard (Rick) Zamora修复广播连接中的错误 (GH#7617) Richard (Rick) Zamora
使用
Blockwise
进行 DataFrame IO(parquet、csv 和 orc)(GH#7415) Richard (Rick) Zamora向Dask
HighLevelGraph
添加块和类型信息(GH#7309) Genevieve Buckley移除测试频率上的跳过 (GH#7608) Julia Signell
移除
ignore_abc_warning
(GH#7606) Julia Signell在列选择和索引之间强化 DataFrame 合并 (GH#7575) Richard (Rick) Zamora
移除
ignore_abc
装饰器 (GH#7604) Julia Signell移除bokeh的kwarg验证(GH#7597) Julia Signell
添加
loky
示例 (GH#7590) Naty Clementi延迟:当参数变为任务时
nout
(GH#7593) Gabe Joseph在mindep CI构建中更新分布式版本 (GH#7602) James Bourbeau
支持分区列与实际列之间完全重叠或无重叠 (GH#7541) Richard (Rick) Zamora
2021.04.1¶
发布于2021年4月23日
处理
Blockwise
HLG 的打包/解包,适用于concatenate=True
(GH#7455) Richard (Rick) Zamoramap_partitions
: 使用分词信息作为SubgraphCallable
的名称 (GH#7524) Mads R. B. Kristensen使用
tmp_path
和tmpdir
避免临时文件和目录留在仓库中 (GH#7592) Naty Clementi贡献文档(开发指南) (GH#7591) Naty Clementi
向 Python 3.9 CI 构建添加更多包 (GH#7588) James Bourbeau
数组:修复 finalize 中的 NEP-18 调度 (GH#7508) Gabe Joseph
numpydoc
的杂项修复 (GH#7569) Matthias Bussonnier避免 pandas
level=
关键字弃用 (GH#7577) James Bourbeau将
.repartition(freq="M")
映射到.repartition(freq="MS")
(GH#7504) Ruben van de Geer在并行CI运行中移除哈希种子 (GH#7128) Elliott Sales de Andrade
简化转置轴清理 (GH#7561) Julia Signell
使
ValueError in len(index_names) > 1
明确其使用fastparquet
(GH#7556) Ray Bell修复
pyarrow
parquet 引擎的dict
列追加问题 (GH#7527) Richard (Rick) Zamora添加文档自动标签 (GH#7560) Doug Davis
将
dask.delayed.Delayed
添加到文档中,以便其他 sphinx 文档可以引用它 (GH#7559) Doug Davis修复上游
idxmaxmin
对于不均匀split_every
的问题 (GH#7538) Julia Signell为 pandas 的
Series
/DataFrame
制作normalize_token
以确保未来兼容性(无直接块访问) (GH#7318) Joris Van den Bossche重新设计的
__setitem__
实现 (GH#7393) David Hassellhistogram
,histogramdd
改进(文档;返回一致性)(GH#7520) Doug Davis在上游构建中强制使用夜间版本的
pyarrow
(GH#7530) Joris Van den Bossche修复配置参考 (GH#7533) Benjamin Zaitlen
避免HLGs的双重``msgpack``序列化 (GH#7525) Mads R. B. Kristensen
鼓励在配置文档中使用
yaml.safe_load()
(GH#7529) Hristo Georgiev在
to_parquet
中支持custom_metadata=
参数 (GH#7359) Richard (Rick) Zamora清理一些文档警告 (GH#7518) Daniel Mesejo-León
消除更多文档警告 (GH#7426) Julia Signell
添加了
product``(``prod
的别名)(GH#7517) Freyam Mehta修复上游
__array_ufunc__
测试 (GH#7494) Julia Signell如果深度为零,从
map_overlap
切换到map_blocks
(GH#7481) Genevieve Buckley将
check_type
添加到数组assert_eq
(GH#7491) Julia Signell
2021.04.0¶
发布于2021年4月2日
添加对多维直方图的支持,使用
dask.array.histogramdd
(GH#7387) Doug Davis在PR中触及某些文件时自动添加标签 (GH#7506) Julia Signell
从
kwargs
中提取ignore_order
(GH#7500) GALI PREM SAGAR只有在缺少分布时才提供安装说明 (GH#7498) Matthew Rocklin
开始添加
isort
(GH#7370) Julia Signell在
dd.concat
中添加ignore_order
参数 (GH#7473) Daniel Mesejo-León在显示RAM时使用二的幂次方 (GH#7484) crusaderky
添加了许可证分类器 (GH#7485) Tom Augspurger
用 mamba 替换 conda (GH#7227) crusaderky
修复数组文档中的拼写错误 (GH#7478) James Lamb
在本地调度器中使用
concurrent.futures
(GH#6322) John A Kirkham
2021.03.1¶
发布于2021年3月26日
为
is_categorical_dtype
添加一个调度以处理非 pandas 对象 (GH#7469) brandon-b-miller在
test_read_text
中使用multiprocessing.Pool
(GH#7472) John A Kirkham为 gufunc 类添加缺失的
meta
关键字参数 (GH#7423) Peter Andreas Entschev内存映射 Dask 数组的示例 (GH#7380) Dieter Weber
修复 NumPy 上游失败
xfail
pandas 和 fastparquet 失败 (GH#7441) Julia Signell修复了使用 freq 进行重新分区的错误 (GH#7357) Ruben van de Geer
修复
tril
/triu
的__array_function__
调度 (GH#7457) Peter Andreas Entschev在几个测试中使用
concurrent.futures.Executors
(GH#7429) John A Kirkham需要 NumPy >=1.16 (GH#7383) crusaderky
次要的
sort_values
维护工作 (GH#7462) Ryan Williams确保在 parquet 部分路径中的自然排序 (GH#7249) Ryan Williams
在运行
test_config.py
时移除全局环境变异 (GH#7464) Hristo Georgiev更新 NumPy intersphinx URL (GH#7460) Gabe Joseph
添加
rot90
(GH#7440) Trevor Manz更新文档以包含端点所需的包 (GH#7454) Nick Vazquez
在
slice_array
文档字符串中将 Master -> main (GH#7453) Gabe Joseph扩展
dask.utils.is_arraylike
文档字符串 (GH#7445) Doug Davis简化
BlockwiseIODeps
导入 (GH#7420) Richard (Rick) Zamora更新图层注释打包方法 (GH#7430) James Bourbeau
在
test_describe_empty
中删除重复测试 (GH#7431) John A Kirkham添加了 df
kurtosis
方法和测试 (GH#7273) Jan Borchmann避免 HLG 剔除的二次时间性能 (GH#7403) Bruce Merry
暂时跳过有问题的
sparse
测试 (GH#7421) James Bourbeau更新一些CI工作流名称 (GH#7422) James Bourbeau
修复 HDFS 测试 (GH#7418) Julia Signell
使变更日志子标题匹配层次结构 (GH#7419) Julia Signell
在
value_counts
中添加对 normalize 的支持 (GH#7342) Julia Signell避免不必要的导入用于HLG层的解包和物化 (GH#7381) Richard (Rick) Zamora
Bincount 修复切片 (GH#7391) Genevieve Buckley
添加
sliding_window_view
(GH#7234) Deepak Cherian修复
docs/source/develop.rst
中的拼写错误 (GH#7414) Hristo Georgiev切换 PR 的文档构建到 readthedocs (GH#7397) James Bourbeau
为 dask.DataFrame 添加
sort_values
(GH#7286) gerrymanoim在CI中固定
sqlalchemy<1.4.0
(GH#7405) James Bourbeau评论修复 (GH#7215) Ryan Williams
死代码移除/修复 (GH#7388) Ryan Williams
使用单线程进行
pa.Table.from_pandas
调用 (GH#7347) Richard (Rick) Zamora将
'container'
替换为'image'
(GH#7389) James Lamb在
bag.read_text
中向fsspec
传递分隔符 (GH#7349) Martin Durant在打包
Blockwise
时,将字面量嵌入SubgraphCallable
中 (GH#7353) Mads R. B. Kristensen需要额外的依赖项:cloudpickle、partd、fsspec、toolz (GH#7345) Julia Signell
准备
Blockwise
+ IO 基础设施 (GH#7281) Richard (Rick) Zamora从
test_slicing.py
中删除重复的导入 (GH#7365) Hristo Georgiev为 pip 开发添加测试依赖 (GH#7360) Julia Signell
支持非NumPy数组的整数切片(GH#7364) Peter Andreas Entschev
自动取消之前的CI构建 (GH#7348) James Bourbeau
dask.array.asarray
应处理xarray
类在顶层命名空间的情况 (GH#7335) Tom WhiteHighLevelGraph
在不物化层的情况下计算长度 (GH#7274) Gabe Joseph放弃对 Python 3.6 的支持 (GH#7006) James Bourbeau
修复
create_metadata_file
中的 fsspec 使用 (GH#7295) Richard (Rick) Zamora将默认分支从 master 改为 main (GH#7198) Julia Signell
将 Xarray 添加到 CI 软件环境 (GH#7338) James Bourbeau
更新错误文本中的分区参数名称 (GH#7336) Eoin Shanaghy
基于提交消息运行上游测试 (GH#7329) James Bourbeau
在工具模块上使用
pytest.register_assert_rewrite
(GH#7278) Bruce Merry在
from_array()
中添加使用特定块大小的示例 (GH#7330) James Lamb将 NumPy 跳过移入测试 (GH#7247) Julia Signell
2021.03.0¶
发布于2021年3月5日
备注
这是第一个支持 Python 3.9 的版本,也是最后一个支持 Python 3.6 的版本。
将
distributed
的最低版本提升(GH#7328) James Bourbeau修复
percentiles_summary
与dask_cudf
(GH#7325) Peter Andreas Entschev暂时恢复最近的
Array.__setitem__
更新 (GH#7326) James BourbeauBlockwise.clone
(GH#7312) crusaderkyNEP-35 鸭子数组更新 (GH#7321) James Bourbeau
不允许为数组设置
.name
(GH#7222) Julia Signell使用最近插值法创建整数输入的分位数 (GH#7305) Kyle Barron
使用 CuPy 数组测试
exp
(GH#7322) John A Kirkham检查计算的分块是否具有正确的尺寸和数据类型 (GH#7277) Bruce Merry
pytest.mark.flaky
(GH#7319) crusaderky贡献文档:在 pip 安装 Dask 之前添加拉取最新 git 标签的注释 (GH#7308) Genevieve Buckley
对 Python 3.9 的支持 (GH#7289) crusaderky
添加基于广播的合并实现 (GH#7143) Richard (Rick) Zamora
将
split_every
添加到graph_manipulation
(GH#7282) crusaderky优化文档中的拼写错误 (GH#7306) Julius Busecke
dask.graph_manipulation
对xarray.Dataset
的支持 (GH#7276) crusaderky为 Bokeh 2.3.0 添加绘图宽度和高度支持 (GH#7297) James Bourbeau
添加 NumPy 函数
tri
、triu_indices
、triu_indices_from
、tril_indices
、tril_indices_from
(GH#6997) Illviljan在DataFrame磁盘洗牌中移除“清理”任务 (GH#7260) Sinclair Target
在CI中使用
distributed
的开发版本 (GH#7279) James Bourbeau移动高层次图包/解包 Dask (GH#7179) Mads R. B. Kristensen
提升
merge_percentiles
的性能 (GH#7172) Ashwin Srinath为
bincount
添加树形简化 (GH#7183) Thomas J. Fan改进
from_array
中name
的文档 (GH#7264) Bruce Merry修复空分区的
cumsum
(GH#7230) Julia Signell在 dask 数组创建文档中添加
map_blocks
示例 (GH#7221) Julia Signell修复
dask.graph_manipulation.wait_on()
中的性能问题 (GH#7258) crusaderky将 coveralls 替换为 codecov.io (GH#7246) crusaderky
在 pre-commit 中固定到特定的
black
版本 (GH#7256) Julia Signell文档中的小拼写错误:
array-chunks.rst
(GH#7254) Magnus Nord修复
Blockwise
和ShuffleLayer
中的错误 (GH#7213) Richard (Rick) Zamora修复了使用 pyarrow-3.0.0 的
"pyarrow-dataset"
的 parquet 过滤器错误 (GH#7200) Richard (Rick) Zamoragraph_manipulation
不使用 NumPy (GH#7243) crusaderky对 NEP-35 的支持 (GH#6738) Peter Andreas Entschev
避免在 doctest CI 构建期间运行单元测试 (GH#7240) James Bourbeau
在CI上运行doctests (GH#7238) Julia Signell
在集合算术上清理代码质量 (GH#7196) crusaderky
添加
dask.array.delete
(GH#7125) Julia Signell现在新的 conda-forge 配方已经构建完成,取消对 graphviz 的固定 (GH#7235) Julia Signell
不要在Mac上使用conda-forge的NumPy 1.20 (GH#7211) crusaderky
map_overlap
: 不要在没有重叠的情况下重新分块轴 (GH#7233) Deepak Cherian固定 graphviz 以避免最新 conda-forge 构建的问题 (GH#7232) Julia Signell
在文档中使用
html_css_files
自定义 CSS (GH#7220) James Bourbeau图操作:
clone
、bind
、checkpoint
、wait_on
(GH#7109) crusaderky修复了在 parquet
pyarrow-dataset
引擎中处理过滤表达式的问题 (GH#7186) Joris Van den Bossche扩展
__setitem__
以更接近匹配 numpy (GH#7033) David Hassell清理 Python 2 语法 (GH#7195) crusaderky
修复
Delayed._length
中的回归问题 (GH#7194) crusaderky__dask_layers__()
测试和调整 (GH#7177) crusaderky在多进程调度器中正确转换
HighLevelGraph
(GH#7191) Jim Crist-Harif不要在CI中快速失败 (GH#7188) James Bourbeau
2021年2月¶
发布于2021年2月5日
为 NEP-35 添加
percentile
支持 (GH#7162) Peter Andreas Entschev在列赋值中添加了对
Float64
的支持 (GH#7173) Nils Braun粗化重新分块错误 (GH#7127) Davis Bennett
修复上游 CI 测试 (GH#6896) Julia Signell
修订
HighLevelGraph
映射 API (GH#7160) crusaderky更新底层图谱规范以使用任何可哈希的键 (GH#7163) James Bourbeau
使用不同的键泛化重建一个集合 (GH#7142) crusaderky
修复数组设计文档中的链接 (GH#7152) Thomas J. Fan
修复使用
blockwise
进行外积的示例 (GH#7119) Bruce Merry弃用
HighlevelGraph.dicts
以支持.layers
(GH#7145) Amit Kumar将
FastParquetEngine
与 pyarrow 引擎对齐 (GH#7091) Richard (Rick) Zamora简化
read_parquet
中的部件列表 (GH#7066) Richard (Rick) Zamoracheck_meta(
): 检查 DataFrame 类型时使用__class__
(GH#7099) Mads R. B. Kristensen修复 parquet
getitem
优化 (GH#7106) Richard (Rick) Zamora将 cytoolz 添加回 CI 环境 (GH#7103) James Bourbeau
2021.01.1¶
发布于2021年1月22日
部分修复
cumprod
(GH#7089) Julia Signell测试 pandas 1.1.x / 1.2.0 版本和 pandas 夜间版 (GH#6996) Joris Van den Bossche
使用 assign 以避免
SettingWithCopyWarning
(GH#7092) Julia Signell传递给
bokeh.output_file()
的'mode'
参数 (GH#7034) (GH#7075) patquem在进行
groupby.value_counts
时跳过空分区 (GH#7073) Julia Signell向
assert_eq()
添加错误信息 (GH#7083) James Lamb
2021.01.0¶
发布于2021年1月15日
map_partitions
带有评审意见 (GH#6776) Kumar Bharath Prabhu确保
population
是一个真正的列表 (GH#7027) Julia Signell在
read_csv
中传播storage_options
(GH#7074) Richard (Rick) Zamora移除所有
BlockwiseIO
代码 (GH#7067) Richard (Rick) Zamora修复 CI (GH#7069) James Bourbeau
在
reshape
中添加控制重新分块的选项 (GH#6753) Tom Augspurger修复
linalg.lstsq
对于复数输入的问题 (GH#7056) Johnnie Gray为
read_csv
添加compression='infer'
默认值 (GH#6960) Richard (Rick) Zamora在
svd_compressed
中恢复参数更改 #7003 (GH#7004) Eric Czech跳过失败的 s3 测试 (GH#7064) Martin Durant
恢复
BlockwiseIO
(GH#7048) Richard (Rick) Zamora添加一些对
DataFrame.to_bag()
和Series.to_bag()
的交叉引用 (GH#7049) Rob Malouf将
matmul
重写为blockwise
而不进行收缩/连接 (GH#7000) Rafal Wojdyla在
da.shape
中使用functools.cached_property
(GH#7023) Illviljan在系列中使用元值
non_empty
(GH#6976) Julia Signell还原“暂时将sphinx版本固定为3.3.1 (GH#7002)” (GH#7014) Rafal Wojdyla
恢复
python-graphviz
的固定版本 (GH#7037) Julia Signell意外提交的打印语句 (GH#7038) Julia Signell
在
agg
中传递dropna
和observed
(GH#6992) Julia Signell在
.str.split
后将索引添加到meta
中,并展开 (GH#7026) Ruben van de GeerCI: 测试 pyarrow 2.0 和 nightly (GH#7030) Joris Van den Bossche
在CI中暂时固定
python-graphviz
(GH#7031) James Bourbeau在
numpydoc
中下划线部分 (GH#7013) Matthias Bussonnier添加自定义优化时保持正常优化 (GH#7016) Matthew Rocklin
暂时将sphinx版本固定为3.3.1 (GH#7002) Rafal Wojdyla
文档:杂项格式化 (GH#6998) Matthias Bussonnier
为
from_array
添加inline_array
选项 (GH#6773) Tom Augspurger恢复“块状数组创建例程的初始通过 (GH#6931)” (:pr:`6995) James Bourbeau
在
set_index
中设置npartitions
(GH#6978) Julia Signell上游
config
序列化和继承 (GH#6987) Jacob Tomlinson在
test_minimum_time
中增加最小时间 (GH#6988) Martin Durant修复 pandas
dtype
对read_parquet
的推断 (GH#6985) Richard (Rick) Zamora使用
sorted=True
避免set_index
中的数据丢失 (GH#6980) Richard (Rick) Zamora修复了
read_parquet
在index=False
时处理未命名索引的问题 (GH#6969) Richard (Rick) Zamora在比较元数据时使用
__class__
(GH#6981) Mads R. B. Kristensen比较字符串版本并不总是有效 (GH#6979) Rafal Wojdyla
简化
has_parallel_type()
(GH#6927) Mads R. B. Kristensen在
BlockwiseIO
中处理注解解包 (GH#6934) Simon Perkins避免在
test_sql.py
中使用已弃用的yield_fixture
(GH#6968) Richard (Rick) Zamora在
BlockwiseIO
中移除错误的图逻辑 (GH#6933) Richard (Rick) Zamora如果变量为
None
则获取配置项 (GH#6862) Jacob Tomlinson更新
from_pandas
文档字符串 (GH#6957) Richard (Rick) Zamora防止
fuse_roots
覆盖注释 (GH#6955) Simon Perkins
2020.12.0¶
发布于2020年12月10日
亮点¶
切换到 CalVer 版本控制方案。
为
HighLevelGraph
引入了新的API,以支持将任务图的高级表示发送到分布式调度器。引入了新的
HighLevelGraph
层对象,包括BasicLayer
、Blockwise
、BlockwiseIO
、ShuffleLayer
等。添加了对使用
dask.annotations
上下文管理器应用自定义Layer
级别注释(如priority
、retries
等)的支持。将 pandas 的最低支持版本更新为 0.25.0,将 NumPy 的最低支持版本更新为 1.15.1。
对
pyarrow.dataset
API 的支持,用于read_parquet
。对 Dask Array 的 SVD 进行了多项修复。
所有更改¶
使
observed
关键字参数可选 (GH#6952) Julia Signell最小支持的 pandas 0.25.0 numpy 1.15.1 (GH#6895) Julia Signell
使分类顺序明确 (GH#6949) Julia Signell
改进
read_parquet
的 “pyarrow-dataset” 统计性能 (GH#6918) Richard (Rick) Zamora为
groupby
添加observed
关键字 (GH#6854) Julia Signell确保
include_path_column
在每个文件有多个分区时正常工作 (GH#6911) Julia Signell修复:当深度为无符号位类型时,
array.overlap
和array.map_overlap
的块大小不正确 (GH#6909) GFleishman从
sample
返回一个Bag
(GH#6941) Shang Wang启用并行收集 parquet 元数据 (GH#6921) Richard (Rick) Zamora
如果
progressbar
中的_file
为None
,请避免使用 (GH#6938) Mark Harfouche将 Zarr 添加到上游 CI 构建 (GH#6932) James Bourbeau
介绍
BlockwiseIO
层 (GH#6878) Richard (Rick) Zamora将
Layer
注释传输到调度器 (GH#6889) Simon Perkins允许
pyarrow >2.0.0
(GH#6772) Richard (Rick) Zamora支持
read_parquet
的pyarrow.dataset
API (GH#6534) Richard (Rick) Zamora当粗化因子不能整除形状时,为
da.coarsen
添加更多信息性的错误消息 (GH#6908) Davis Bennett仅在
dask/dask
上运行 cron CI,不在分支上运行 (GH#6905) Jacob Tomlinson在
ShuffleLayers
中添加annotations
(GH#6913) Matthew Rocklin暂时将
test_from_s3
标记为 xfail (GH#6915) James Bourbeau添加了 dataframe
skew
方法 (GH#6881) Jan Borchmann修复数组
meta
中的dtype
(GH#6893) Julia Signell在
helm install ...
中缺少name
参数 (GH#6903) Ruben van de Geer修复:读取带有过滤器的项目时出现异常 (GH#6901) Martin Durant
为
dask.array.dot
添加对cupyx
稀疏矩阵的支持 (GH#6846) Akira Naruse将 pin 数组 mindeps 稍微提升以使测试通过 [test-mindeps] (GH#6894) Julia Signell
更新/移除 mindeps 中的 pandas 和 numpy (GH#6888) Julia Signell
修复
ArrowEngine
在使用clear_known_categories
时的错误 (GH#6887) Richard (Rick) Zamora修复关于任务调度器的文档 (GH#6879) Zhengnan Zhao
添加人类可读的相对时间格式化工具 (GH#6883) Jacob Tomlinson
6864
set_index
问题的可能修复 (GH#6866) Richard (Rick) ZamoraBasicLayer
: 移除依赖参数 (GH#6859) Mads R. B. KristensenBlockwise
的序列化 (GH#6848) Mads R. B. Kristensen修复
columns=[]
错误 (GH#6871) Richard (Rick) Zamora避免重复的parquet模式通信 (GH#6841) Richard (Rick) Zamora
为现有的parquet数据集添加
create_metadata_file
工具 (GH#6851) Richard (Rick) Zamora改进具有共同终点的负载的排序 (GH#6779) Tom Augspurger
字符串化工具 (GH#6852) Mads R. B. Kristensen
在
to_parquet
中添加关键字overwrite=True
以在覆盖 pyarrowDataset
时删除悬空文件。 (GH#6825) Greg Hayes移除了
map_tasks()
和map_basic_layers()
(GH#6853) Mads R. B. Kristensen将QR迭代引入
svd_compressed
(GH#6813) RogerMoens__dask_distributed_pack__()
现在接受一个client
参数 (GH#6850) Mads R. B. Kristensen在
set_index
中使用map_partitions
代替delayed
(GH#6837) Mads R. B. Kristensen更新 GHA
setup-miniconda
版本 (GH#6847) Jacob Tomlinson设置排序索引时移除nans (GH#6829) Rockwell Weiner
修复SVD中u的转置 (GH#6799) RogerMoens
迁移到 GitHub Actions (GH#6794) Jacob Tomlinson
修复 sphinx
currentmodule
的使用 (GH#6839) James Bourbeau修复最小依赖的CI构建 (GH#6838) James Bourbeau
在
Blockwise
筛选期间避免图的物化 (GH#6815) Richard (Rick) Zamora修复拼写错误 (GH#6834) Devanshu Desai
在
collections_to_dsk
中使用HighLevelGraph.merge
(GH#6836) Mads R. B. Kristensen在 svd
compression_matrix
中尊重dtype
#2849 (GH#6802) RogerMoens将blocksize添加到任务名称 (GH#6818) Julia Signell
检查所有NaN分区 (GH#6821) Rockwell Weiner
将“机构”SQL文档部分指向主SQL文档 (GH#6823) Martin Durant
修复:
DataFrame.join
不接受 Series 作为其他 (GH#6809) David Katz从
to_parquet
中移除to_delayed
操作 (GH#6801) Richard (Rick) Zamora层注释文档字符串改进 (GH#6806) Simon Perkins
Avro 读取器 (GH#6780) Martin Durant
如果最小块大小小于深度,则重新分块数组(GH#6708)`Julia Signell`_
添加图层注释 (GH#6767) Simon Perkins
向
Blockwise
层添加可选的 IO-子图 (GH#6715) Richard (Rick) Zamora为分布式添加高层次的图打包/解包 (GH#6786) Mads R. B. Kristensen
添加 Dataframe API 的缺失方法 (GH#6789) Stephannie Jimenez Gacha
添加环境管理文档 (GH#6778) Martin Durant
HLG:
get_all_external_keys()
(GH#6774) Mads R. B. Kristensen在重塑时避免重新分块,使用
chunksize=1
(GH#6748) Tom Augspurger尝试在连接中使分类工作 (GH#6205) Julia Signell
修复了
array-slice.rst
中的一些小拼写错误和尾随空白 (GH#6771) Magnus Nord修复空数据框分区写入parquet元数据的问题(pyarrow) (GH#6741) Callum Noble
文档
map_blocks
和map_overlap
中的meta
关键字参数。(GH#6763) Peter Andreas Entschev开始对
cumsum
和cumprod
进行并行前缀扫描的实验 (GH#6675) Erik Welch高效序列化混洗层 (GH#6760) James Bourbeau
配置数组优化以跳过融合并返回 HLG (GH#6751) Mads R. B. Kristensen
在CI中暂时使用
pyarrow<2
(GH#6759) James Bourbeau修复
min
/max
归约的元数据 (GH#6736) Peter Andreas Entschev为
da.linalg.lstsq
添加二维可能性 - 镜像 numpy (GH#6749) Pascal BourgaultCI: 修复了导致枢轴测试不稳定的错误 (GH#6752) Tom Augspurger
层的序列化 (GH#6693) Mads R. B. Kristensen
移除了可变默认参数 (GH#6747) Mads R. B. Kristensen
调整 parquet
ArrowEngine
以允许更轻松地编写子类 (GH#6505) Joris Van den Bossche添加
ShuffleStage
HLG 层 (GH#6650) Richard (Rick) Zamora在
meta_from_array
中处理字面量 (GH#6731) Peter Andreas Entschev即使块相同也进行平衡重分块 (GH#6735) Chris Roat
修复文档字符串
DataFrame.set_index
(GH#6739) Gil Forsyth确保
HighLevelGraph
层始终包含Layer
实例 (GH#6716) James Bourbeau在
HighLevelGraph
层上进行映射 (GH#6689) Mads R. B. Kristensen更新重叠的
*_like
函数调用和 CuPy 测试 (GH#6728) Peter Andreas Entschev修复
svd
与__array_function__
的问题 (GH#6727) Peter Andreas Entschev为文档添加了doctest扩展 (GH#6397) Jim Circadian
根据 @pentschev 的建议对 #5628 进行了小修复 (GH#6724) John A Kirkham
当元类型变化时更改Dask数组类型 (GH#5628) Matthew Rocklin
HLG: 单个键的
get_dependencies()
(GH#6699) Mads R. B. Kristensen恢复“恢复‘在集合中到处使用 HighLevelGraph 层 (GH#6510)’” (GH#6697) (GH#6707) Tom Augspurger
允许
*_like
数组创建函数尊重输入数组类型 (GH#6680) Genevieve Buckley更新
dask-sphinx-theme
版本 (GH#6700) Gil Forsyth
2.30.0 / 2020-10-06¶
数组¶
允许
rechunk
均匀分割成 N 个块 (GH#6420) Scott Sievert
2.29.0 / 2020-10-02¶
数组¶
_repr_html_
: 将边颜色调暗而不是绘制所有线条 (GH#6683) Julia Signell从
nanstd
和nanvar
中移除警告 (GH#6667) Thomas J. Fan从原始数组获取输出形状 -
map_overlap
(GH#6682) Julia Signell在索引中用
bisect
替换np.searchsorted
(GH#6669) Joachim B Haga
包¶
确保子进程对 bag
groupby
有一致的哈希值 (GH#6660) Itamar Turner-Trauring
核心¶
恢复“在集合中到处使用
HighLevelGraph
层 (GH#6510)” (GH#6697) Tom Augspurger使用
pandas.testing
(GH#6687) John A Kirkham改进测试中的128位浮点数跳过 (GH#6676) Elliott Sales de Andrade
DataFrame¶
允许使用布尔数据框设置数据框项 (GH#6608) Julia Signell
2.28.0 / 2020-09-25¶
数组¶
部分恢复了对
Array
索引的更改,这些更改会产生较大的变化。这将恢复到 Dask 2.25.0 及之前版本的行为,并在生成大块时发出警告。提供了一个配置选项以避免创建大块,请参阅 效率。(GH#6665) Tom Augspurger将
meta
添加到to_dask_array
(GH#6651) Kyle Nicholson修复 GH#6631 和 GH#6611 (GH#6632) Rafal Wojdyla
在数组缩减中推断对象 (GH#6629) Daniel Saxton
为
svd_flip
添加v_based
标志 (GH#6658) Eric Czech修复不稳定的数组
mean
(GH#6656) Sam Grayson
核心¶
从
SubgraphCallable.__eq__
中移除了dsk
的相等性检查 (GH#6666) Mads R. B. Kristensen在集合中随处使用
HighLevelGraph
层 (GH#6510) Mads R. B. Kristensen为
SubgraphCallable
添加哈希双下划线方法以用于缓存目的 (GH#6424) Andrew Fulton默认情况下停止编写注释掉的配置文件 (GH#6647) Matthew Rocklin
DataFrame¶
通过
agg
API 添加对 collect 列表聚合的支持 (GH#6655) Madhur Tandon略微改进的错误信息 (GH#6657) Julia Signell
2.27.0 / 2020-09-18¶
数组¶
在
svd
中保留dtype
(GH#6643) Eric Czech
核心¶
store()
: 创建一个单一的 HLG 层 (GH#6601) Mads R. B. Kristensen添加预提交CI构建 (GH#6645) James Bourbeau
更新
.pre-commit-config
到最新的 black。(GH#6641) Julia Signell更新 super 用法以移除 Python 2 兼容性 (GH#6630) Poruri Sai Rahul
移除 u 字符串前缀 (GH#6633) Poruri Sai Rahul
DataFrame¶
改进
to_sql
的错误信息 (GH#6638) Julia Signell使用空列表作为分类 (GH#6626) Julia Signell
文档¶
为数组API文档添加
autofunction
以支持更多ufuncs (GH#6644) James Bourbeau向
dask.array
文档添加多个缺失的 ufuncs (GH#6642) Ralf Gommers添加
HelmCluster
文档 (GH#6290) Jacob Tomlinson
2.26.0 / 2020-09-11¶
数组¶
单块 svd 的后端感知 dtype 推断 (GH#6623) Eric Czech
使
array.reduction
文档字符串与 dtype 匹配 (GH#6624) Martin Durant使用行和列为
svd_compressed
设置压缩级别的下限 (GH#6622) Eric Czech改进SVD一致性和小数组处理 (GH#6616) Eric Czech
添加
svd_flip
#6599 (GH#6613) Eric Czech处理包含 dask 数组的序列 (GH#6595) Gabe Joseph
避免使用列表从
getitem
获取大块数据 (GH#6514) Tom Augspurger在
from_array
中急切地分割 numpy 数组 (GH#6605) Deepak Cherian恢复对 dask 数组的 pickle 能力 (GH#6594) Noah D. Brenowitz
为短而宽的数组添加SVD支持 (GH#6591) Eric Czech
添加简单的块类型注册表,并根据需要推迟到上转型类型 (GH#6393) Jon Thielen
默认情况下对齐粗化块 (GH#6580) Deepak Cherian
修复未知维度的重塑问题及其他测试修复 (GH#6578) Ryan Williams
核心¶
为
HighLevelGraph
依赖项添加验证和修复 (GH#6588) Mads R. B. Kristensen修复代码检查问题 (GH#6598) Tom Augspurger
跳过
bokeh
版本 2.0.0 (GH#6572) John A Kirkham
DataFrame¶
在
Series.sum
/prod
中处理min_count
(GH#6618) Daniel Saxton在计算分位数时,始终计算0和1分位数 (GH#6564) Erik Welch
修复读取空csv文件时的错误路径 (GH#6573) Abdulelah Bin Mahfoodh
文档¶
文档:故障排除仪表板 404 (GH#6215) Kilian Lieret
修复
extraConfig
示例 (GH#6625) Tom Augspurger更新支持的 Python 版本 (GH#6609) Julia Signell
文档 dask/daskhub helm 图表 (GH#6560) Tom Augspurger
2.25.0 / 2020-08-28¶
核心¶
在
subs()
中比较键哈希 (GH#6559) Mads R. B. Kristensen使用最新的
black
版本重新运行 (GH#6568) James Bourbeau许可证更新 (GH#6554) Tom Augspurger
文档¶
从文档页面名称中移除版本 (GH#6558) James Bourbeau
更新
kubernetes-helm.rst
(GH#6523) David Sheldon停止2020年调查(GH#6547)`Tom Augspurger`_
2.24.0 / 2020-08-22¶
数组¶
修复测试中设置随机种子的设置。(GH#6518) Elliott Sales de Andrade
在 apply gufunc 中支持元数据 (GH#6521) joshreback
将 cupy.sparse 替换为 cupyx.scipy.sparse (GH#6530) John A Kirkham
数据框¶
提高滚动测试的容差 (GH#6502) Julia Signell
实现 DatFrame.__len__ (GH#6515) Tom Augspurger
在 to_parquet 中推断箭头模式 (适用于 ArrowEngine`) (GH#6490) Richard (Rick) Zamora
在没有 pyarrow 时修复 parquet 测试 (GH#6524) Martin Durant
移除 ArrowEngine 中有问题的
filter
参数 (GH#6527) Richard (Rick) Zamora在ArrowEngine中默认避免模式验证(GH#6536) Richard (Rick) Zamora
核心¶
在 make_blockwise_graph 中使用 unpack_collections (GH#6517) Thomas J. Fan
将 key_split() 从 optimization.py 移动到 utils.py (GH#6529) Mads R. B. Kristensen
在moto服务器上运行测试 (GH#6528) Martin Durant
2.23.0 / 2020-08-14¶
数组¶
通过广播减少
np.zeros
,ones
, 和full
数组的大小 (GH#6491) Matthias Bussonnier在
map_overlap
中为trim
添加缺失的meta=
(GH#6494) Peter Andreas Entschev
包¶
袋子重新分区分区大小 (GH#6371) joshreback
核心¶
Scalar.__dask_layers__()
返回self._name
而不是self.key
(GH#6507) Mads R. B. Kristensen在
fuse_root
优化中正确更新依赖 (GH#6508) Mads R. B. Kristensen
DataFrame¶
将
items
添加到数据框 (GH#6503) Thomas J. Fan在
write_table
调用中包含压缩 (GH#6499) Julia Signell修复了
nonempty_series
中的警告 (GH#6485) Tom Augspurger基于第一个参数的类型智能确定分区 (GH#6479) Matthew Rocklin
修复 pyarrow
mkdirs
(GH#6475) Julia Signell修复
to_parquet
中的重复 parquet 输出 (GH#6451) michaelnarodovitch
文档¶
修复文档
da.histogram
(GH#6439) Roberto Panai修复了SQL文档中的几个拼写错误 (GH#6489) Mike McCarty
SQLing 文档 (GH#6453) Martin Durant
2.22.0 / 2020-07-31¶
数组¶
NumPy dtype 弃用兼容性 (GH#6430) Tom Augspurger
核心¶
为某些
bytes
类对象实现sizeof
(GH#6457) John A Kirkham新的
fsspec
的 HTTP 错误 (GH#6446) Martin Durant当
RecursionError
被引发时,从tokenize
函数返回 uuid (GH#6437) Julia Signell安装上游开发包的依赖 (GH#6431) Tom Augspurger
在
setup.cfg
中使用更新后的链接 (GH#6426) Zhengnan Zhao
DataFrame¶
如果字符串,则在列名周围添加单引号 (GH#6471) Gil Forsyth
重构
ArrowEngine
以提升read_parquet
性能 (GH#6346) Richard (Rick) Zamora添加
tolist
分派 (GH#6444) GALI PREM SAGAR与 pandas 1.1.0rc0 的兼容性 (GH#6429) Tom Augspurger
多值数据透视表 (GH#6428) joshreback
to_csv
文档字符串中的重复参数定义 (GH#6411) Jun Han (Johnson) Ooi
文档¶
为文档添加实用工具,用于将 YAML 配置转换为环境变量并返回 (GH#6472) Jacob Tomlinson
修复参数服务器渲染 (GH#6466) Scott Sievert
修复了损坏的链接 (GH#6403) Jim Circadian
文档中完整的参数服务器实现 (GH#6449) Scott Sievert
修复拼写错误 (GH#6436) Jack Xiaosong Xu
2.21.0 / 2020-07-17¶
数组¶
在
array.routines.gradient()
中修正错误信息 (GH#6417) johnomotani修复数组中某些
dimension=1
的块级连接问题 (GH#6342) Matthias Bussonnier
包¶
修复
bag.take
示例 (GH#6418) Roberto Panai
核心¶
优化传递中的组值应仅包含图和键——而不是优化 + 键 (GH#6409) Benjamin Zaitlen
调用自定义优化一次,提供
kwargs
(GH#6382) Clark Zinzow在Python 3.7上测试时包含
pickle5
(GH#6379) John A Kirkham
DataFrame¶
修正错误信息中的拼写错误 (GH#6422) Tom McTiernan
使用
pytest.warns
来检查UserWarning
(GH#6378) Richard (Rick) Zamora从字符串中解析
bytes_per_chunk 关键字
(GH#6370) Matthew Rocklin
文档¶
Numpydoc 格式化 (GH#6421) Matthias Bussonnier
在1.1版本发布后取消固定
numpydoc
(GH#6407) Gil ForsythNumpydoc 格式化 (GH#6402) Matthias Bussonnier
更新
visualize
文档字符串 (GH#6383) Zhengnan Zhao
2.20.0 / 2020-07-02¶
数组¶
为 numpy 零步长数组注册
sizeof
(GH#6343) Matthias Bussonnier在
concatenate
中使用concatenate_lookup
(GH#6339) John A Kirkham修复具有某些零长度维度的数组的重新分块 (GH#6335) Matthias Bussonnier
DataFrame¶
将
iloc
调用分派给getitem
(GH#6355) Gil Forsyth在 fastparquet 引擎中处理未命名的 pandas
RangeIndex
(GH#6350) Richard (Rick) Zamora在使用 pyarrow 编写分区 parquet 数据集时保留索引 (GH#6282) Richard (Rick) Zamora
使用
ignore_index
进行 pandas 的group_split_dispatch
(GH#6251) Richard (Rick) Zamora
2.19.0 / 2020-06-19¶
数组¶
将块大小转换为 Python int
dtype
(GH#6326) Gil Forsyth在
*_like()
数组创建函数中添加shape=None
(GH#6064) Anderson Banihirwe
核心¶
更新 fsspec 中协议差异的预期错误消息 (GH#6331) Gil Forsyth
修复
parse_bytes
中小于1的浮点数 (GH#6311) Gil Forsyth修复代码库中所有异常的原因 (GH#6308) Ram Rachum
修复重复的测试 (GH#6303) James Lamb
移除未使用的测试函数 (GH#6304) James Lamb
DataFrame¶
添加高层次CSV子图 (GH#6262) Gil Forsyth
修复在合并仅包含索引的1分区数据帧时出现的
ValueError
(GH#6309) Krishan Bhasin使
index.map
清晰划分。(GH#6285) Julia Signell
文档¶
添加2020年调查的链接 (GH#6328) Tom Augspurger
更新
bag.rst
(GH#6317) Ben Shaver
2.18.1 / 2020-06-09¶
数组¶
不要尝试在
full
(GH#6299) 上设置名称 Julia Signell直方图:支持范围/箱的惰性值(另一种方式)(GH#6252) Gabe Joseph
核心¶
修复
utils.py
中的异常原因 (GH#6302) Ram Rachum改进
HighLevelGraph
构建的性能 (GH#6293) Julia Signell
文档¶
现在 readthedocs 构建了未发布功能的文档字符串 (GH#6295) Antonio Ercole De Luca
添加
asyncssh
intersphinx 映射 (GH#6298) Jacob Tomlinson
2.18.0 / 2020-06-05¶
数组¶
如果与原始形状相同,则将切片索引转换为 dask 数组 (GH#6273) Julia Signell
修复
stack
错误信息 (GH#6268) Stephanie Gott在
map_overlap
中支持多个数组 (GH#6165) Eric Czech填充重采样分区以便计算边缘 (GH#6255) Julia Signell
包¶
从 dask 包中随机抽样 k 个元素 #4799 (GH#6239) Antonio Ercole De Luca
DataFrame¶
将
dropna
、sort
和ascending
添加到sort_values
(GH#5880) Julia Signell泛化
from_dask_array
(GH#6263) GALI PREM SAGAR为
SeriesGroupby.nunique
添加派生文档字符串 (GH#6284) Julia Signell在按规则重采样时移除
NotImplementedError
(GH#6274) Abdulelah Bin Mahfoodh添加
dd.to_sql
(GH#6038) Ryan Williams
2.17.2 / 2020-05-28¶
核心¶
重新添加
complete
额外功能 (GH#6257) Jim Crist-Harif
DataFrame¶
如果
resample
不能给出正确答案,则引发错误 (GH#6244) Julia Signell
2.17.1 / 2020-05-28¶
数组¶
空数组重新分块 (GH#6233) Andrew Fulton
核心¶
将
pyyaml
设为必需 (GH#6250) Jim Crist-Harif修复从
ImportError
开始的安装命令 (GH#6238) Gaurav Sheni移除问题模板 (GH#6249) Jacob Tomlinson
DataFrame¶
从
DataFrame.shuffle
传递ignore_index
到dd_shuffle
(GH#6247) Richard (Rick) Zamora处理缺失的HDF键 (GH#6204) Martin Durant
泛化
describe
和quantile
API (GH#5137) GALI PREM SAGAR
2.17.0 / 2020-05-26¶
数组¶
包¶
随机选择包 (GH#6208) Antonio Ercole De Luca
核心¶
引发警告
delayed.visualise()
(GH#6216) Amol Umbarkar确保其他 pickle 参数工作 (GH#6229) John A Kirkham
重构
fuse()
配置 (GH#6198) crusaderky更新
dask.order.order
以考虑使用 FIFO 和 LIFO 的“下一个”节点 (GH#5872) Erik Welch
DataFrame¶
使用 0 作为
fill_value
以支持更多聚合方法 (GH#6245) Julia Signell泛化
rearrange_by_column_tasks
并添加DataFrame.shuffle
(GH#6066) Richard (Rick) ZamoraXfail
test_rolling_numba_engine
用于较新的 numba 和较旧的 pandas (GH#6236) James Bourbeau泛化
fix_overlap
(GH#6240) GALI PREM SAGAR在使用重叠分区的预排序索引时避免洗牌 (GH#6226) Krishan Bhasin
调整 Parquet 引擎类以更容易地进行子类化 (GH#6211) Marius van Niekerk
修复
dd.merge_asof
使用left_on='col'
和right_index=True
的问题 (GH#6192) noreentry将
AUTO_BLOCKSIZE
移出read_csv
签名 (GH#6214) Jim Crist-Harif.loc
使用可调用对象进行索引 (GH#6185) Endre Mark Borza避免在
_compute_sum_of_squares
中应用 groupby std agg (GH#6186) Richard (Rick) Zamora对
test_parquet
的小修正 (GH#6190) Brian Larsen遵循传递的分隔符连接模式并修复错误消息 (GH#6194) GALI PREM SAGAR
如果没有可用的 parquet 库,则跳过
test_to_parquet_with_get
(GH#6188) Scott Sanderson
文档¶
为
distributed.Event
类添加了文档 (GH#6231) Nils Braun
2.16.0 / 2020-05-08¶
数组¶
修复数组通用归约名称 (GH#6176) Nick Evans
在
unravel_index
中将dim
替换为shape
(GH#6155) Julia Signell时刻:处理所有元素被遮罩的情况 (GH#5339) Gabe Joseph
核心¶
移除dask代码库中冗余的字符串拼接 (GH#6137) GALI PREM SAGAR
上游兼容性 (GH#6159) Tom Augspurger
确保
sizeof
对于字典和序列返回一个整数 (GH#6179) James Bourbeau通过随机抽样估计Python集合大小 (GH#6154) Florian Jetter
更新上游测试 (GH#6146) Tom Augspurger
跳过mindeps构建的测试 (GH#6144) Tom Augspurger
将默认的多进程上下文切换为“spawn” (GH#4003) Itamar Turner-Trauring
更新清单以包含 dask-schema (GH#6140) Benjamin Zaitlen
DataFrame¶
在基于 pyarrow 的
read_parquet
中强化不一致模式处理 (GH#6160) Richard (Rick) Zamora向写入磁盘数据的方法添加计算
kwargs
(GH#6056) Krishan Bhasin修复
unique
从后端返回类似索引结果的问题 (GH#6153) GALI PREM SAGAR修复
map_partitions
中与集合相关的内部错误 (GH#6103) Tom Augspurger
文档¶
将计算阶段添加到索引目录 (GH#6157) Benjamin Zaitlen
移除调度脚本中未使用的导入 (GH#6138) James Lamb
修复缩进 (GH#6147) Martin Durant
添加 Tom 的日志配置示例 (GH#6143) Martin Durant
2.15.0 / 2020-04-24¶
数组¶
更新
dask.array.from_array
以在传递 Dask 集合时发出警告 (GH#6122) James Bourbeau在
da.repeat
中添加对repeats=0
的支持 (GH#6080) James Bourbeau
核心¶
修复架构的yaml布局(GH#6132) Benjamin Zaitlen
配置参考 (GH#6069) Benjamin Zaitlen
添加配置选项以关闭任务融合 (GH#6087) Matthew Rocklin
在Windows上跳过pyarrow (GH#6094) Tom Augspurger
设置融合键的最大长度限制 (GH#6057) Lucas Rademaker
针对 #6062 添加测试 (GH#6072) Martin Durant
将结账操作升级到 v2 (GH#6065) James Bourbeau
DataFrame¶
泛化分类调用以支持 cudf
Categorical
(GH#6113) GALI PREM SAGAR避免在每个工作节点上读取
_metadata
(GH#6017) Richard (Rick) Zamora在
apply_concat_apply
中使用group_split_dispatch
和ignore_index
(GH#6119) Richard (Rick) Zamora使用 pyarrow 处理新的 (dtype) pandas 元数据 (GH#6090) Richard (Rick) Zamora
如果未安装 pyarrow,则跳过
test_partition_on_cats_pyarrow
(GH#6112) James Bourbeau更新 DataFrame len 以处理同名列 (GH#6111) James Bourbeau
ArrowEngine
错误修复和测试覆盖率 (GH#6047) Richard (Rick) Zamora添加了模式 (GH#5958) Adam Lewis
文档¶
扩展预加载文档 (GH#6077) Matthew Rocklin
修复了 DataFrame
map_partitions()
文档字符串中的小拼写错误 (GH#6115) Eugene Huang修正拼写错误:“double” 应为 times,而不是 plus (GH#6091) David Chudzicki
修复
array.random.*
文档的第一行 (GH#6063) Martin Durant在分布式中添加关于
Semaphore
的部分 (GH#6053) Florian Jetter
2.14.0 / 2020-04-03¶
数组¶
添加了
np.iscomplexobj
实现 (GH#6045) Tom Augspurger
核心¶
更新
test_rearrange_disk_cleanup_with_exception
以在没有安装 cloudpickle 的情况下通过 (GH#6052) James Bourbeau修复了不稳定的
test-rearrange
(GH#5977) Tom Augspurger
DataFrame¶
在
stack_partitions
中使用_meta_nonempty
进行 dtype 转换 (GH#6061) mlondschien修复了在 parquet
ArrowEngine
中_metadata
创建和过滤的错误 (GH#6023) Richard (Rick) Zamora
文档¶
文档:添加名称注意事项 (GH#6040) Tom Augspurger
2.13.0 / 2020-03-25¶
数组¶
在
da.random
中支持dtype
和其他关键字参数 (GH#6030) Matthew Rocklin注册对
cupy
稀疏hstack
/vstack
的支持 (GH#5735) Corey J. Nolet在
dask.array
中强制self.name
为str
(GH#6002) Chuanzhu Xu
包¶
在
bag.optimize
中默认将rename_fused_keys
设置为None
(GH#6000) Lucas Rademaker
核心¶
更严格的 pandas
xfail
(GH#6024) Tom Augspurger修复CI失败 (GH#6013) James Bourbeau
将
toolz
更新到 0.8.2 并使用tlz
(GH#5997) Ryan Grout将 Windows CI 构建迁移到 GitHub Actions (GH#5862) James Bourbeau
DataFrame¶
修复
dd.concat
中的dtype
处理 (GH#6006) mlondschien处理cudf的leftsemi和leftanti连接 (GH#6025) Richard J Zamora
在
dd.from_pandas
中移除未使用的npartitions
变量 (GH#6019) Daniel Saxton
文档¶
修复调度器概览文档中的缩进问题 (GH#6022) Matthew Rocklin
在优化文档中更新任务图 (GH#5928) Julia Signell
可选地去除可视化中的中间框,并添加更多标签 (GH#5976) Julia Signell
2.12.0 / 2020-03-06¶
数组¶
通过 numpy 提高临时变量的重用率 (GH#5933) Bruce Merry
使用
block_info
制作map_blocks
生成一个Blockwise
(GH#5896) Bruce Merry优化
make_blockwise_graph
(GH#5940) Bruce Merry修复
da.tensordot
中的轴顺序 (GH#5975) Gil Forsyth为
array.pad
添加空模式 (GH#5931) Thomas J. Fan
核心¶
在
dask.utils
中移除toolz.memoize
依赖 (GH#5978) Ryan Grout关闭池泄漏子进程 (GH#5979) Tom Augspurger
将
numpydoc
固定到0.8.0
(修复双自动转义) (GH#5961) Gil Forsyth为
range
对象注册确定性分词 (GH#5947) James Bourbeau在CI中取消固定
msgpack
(GH#5930) JAmes Bourbeau确保点结果放置在唯一文件中。(GH#5937) Elliott Sales de Andrade
将剩余的可选依赖项添加到 Travis 3.8 CI 构建环境中 (GH#5920) James Bourbeau
DataFrame¶
跳过某些键的 parquet
getitem
优化 (GH#5917) Tom Augspurger在
rearrange_by_column
代码路径中添加ignore_index
参数 (GH#5973) Richard J Zamora添加 DataFrame 和 Series 的
memory_usage_per_partition
方法 (GH#5971) James Bourbeauxfail
当使用 Pandas 0.24.2 时测试_describe (GH#5948) James Bourbeau实现
dask.dataframe.to_numeric
(GH#5929) Julia Signell当列顺序不同时添加新的错误消息内容 (GH#5927) Julia Signell
在可能的情况下,使用浅拷贝进行赋值操作(GH#5740)`Richard J Zamora`_
文档¶
在
dask.array.triu
文档中将上方改为下方 (GH#5984) Henrik Andersson数组切片:修复
slice_with_int_dask_array
错误信息中的拼写错误 (GH#5981) Gabe Joseph文档字符串的语法和格式更新 (GH#5963) James Lamb
更新 DataFrame 扩展文档的标题 (GH#5954) James Bourbeau
修复了文档中的拼写错误 (GH#5962) James Lamb
在
_bind_*
方法中添加原始类或模块作为kwarg
(GH#5946) Julia Signell更新Python 3的优化文档 (GH#5926) Julia Signell
2.11.0 / 2020-02-19¶
数组¶
缓存
Array.shape
的结果 (GH#5916) Bruce Merry提高
rechunk
的estimate_graph_size
的准确性 (GH#5907) Bruce Merry跳过不改变分块的重新分块步骤 (GH#5909) Bruce Merry
在
coarsen
中支持dtype
和其他kwargs
(GH#5903) Matthew Rocklin将
map_blocks
中的块覆盖推入 blockwise (GH#5895) Bruce Merry避免对单例使用
rewrite_blockwise
(GH#5890) Bruce Merry优化
slices_from_chunks
(GH#5891) Bruce Merry在
block()
中避免不必要的__getitem__
当块具有正确的维度时 (GH#5884) Thomas Robitaille
包¶
修复了延迟执行 bagged NumPy 数组中的
ValueError
(GH#5828) Surya Avala
核心¶
CI: 固定
msgpack
(GH#5923) Tom Augspurger将
test_inner
重命名为test_outer
(GH#5922) Shiva Raisinghaniquote
也应该引用字典 (GH#5905) Bruce Merry为字面量注册一个规范化器(GH#5898) Bruce Merry
改进非HLG的层名称合成 (GH#5888) Bruce Merry
将flake8预提交钩子替换为上游 (GH#5892) Julia Signell
调用 pip 作为模块以避免警告 (GH#5861) Cyril Shcherbin
在退出时关闭
ThreadPool
(GH#5852) Tom Augspurger在分词代码中移除
dask.dataframe
导入 (GH#5855) James Bourbeau
DataFrame¶
需要
pandas>=0.23
(GH#5883) Tom Augspurger从数据框聚合中移除 lambda (GH#5901) Matthew Rocklin
修复
dataframe/__init__.py
中的异常链 (GH#5882) Ram Rachum为空数据框添加归约支持 (GH#5804) Shiva Raisinghani
为 groupby 暴露
sort=
参数 (GH#5801) Richard J Zamora使用
fastparquet.api.paths_to_cats
中的 parquet 读取速度优化。(GH#5821) Igor Gotlibovych
文档¶
弃用
doc_wraps
(GH#5912) Tom Augspurger更新数组内部设计文档以适应 HighLevelGraph 时代 (GH#5889) Bruce Merry
移动仪表板连接文档 (GH#5877) Matthew Rocklin
将 Prometheus 文档从 distributed.dask.org 移动 (GH#5876) Matthew Rocklin
移除末尾重复的 DO 块 (GH#5878) K.-Michael Aye
map_blocks
另见 (GH#5874) Tom Augspurger更多源自 (GH#5871) Julia Signell
修复拼写错误 (GH#5866) Yetunde Dada
修复
cloud.rst
中的拼写错误 (GH#5860) Andrew Thomas添加指向行为准则和多样性声明的注释 (GH#5844) Matthew Rocklin
2.10.1 / 2020-01-30¶
修复 Pandas 1.0 版本比较 (GH#5851) Tom Augspurger
修复分布式诊断文档中的拼写错误 (GH#5841) Gerrit Holl
2.10.0 / 2020-01-28¶
对 pandas 1.0 的新
BooleanDtype
和StringDtype
的支持 (GH#5815) Tom Augspurger与 pandas 1.0 的 API 破坏性变更和弃用项的兼容性 (GH#5792) Tom Augspurger
修复了一些扩展数组支持的 pandas 对象的非确定性分词 (GH#5813) Tom Augspurger
修复了集合中数据类对象的处理 (GH#5812) Matteo De Wint
延迟 Zarr 数据集的初始创建,直到计算发生 (GH#5797) Chris Roat
在更多情况下使用
pyarrow
引擎的 parquet 数据集统计信息 (GH#5799) Richard J Zamora当某些键为大整数时,
groupby.std()
中的固定异常 (GH#5737) H. Thomson Comer
2.9.2 / 2020-01-16¶
数组¶
在
broadcast_arrays
中统一块 (GH#5765) Matthew Rocklin
核心¶
xfail
CSV 编码测试 (GH#5791) Tom Augspurger更新订单以处理空的 dask 图 (GH#5789) James Bourbeau
重做
dask.order.order
(GH#5646) Erik Welch
DataFrame¶
为磁盘上的shuffle添加透明压缩,使用
partd
(GH#5786) Christian Wesp修复空数据框的
repr
(GH#5781) Shiva RaisinghaniPandas 1.0.0RC0 兼容 (GH#5784) Tom Augspurger
移除有问题的断言 (GH#5783) Tom Augspurger
Pandas 1.0 兼容 (GH#5782) Tom Augspurger
修复了基于 pyarrow 的
read_parquet
在分区数据集上的错误 (GH#5777) Richard J Zamorapandas 1.0 的兼容性 (GH#5779) Tom Augspurger
修复带有分类索引的 groupby/mean 错误 (GH#5776) Richard J Zamora
在执行累积聚合时支持空分区 (GH#5730) Matthew Rocklin
有序
Categorical
集合索引中的固定分区 (GH#5715) Tom Augspurger
文档¶
注意
normalize_token.register
的额外用例 (GH#5766) Thomas A Caswell小的拼写错误 (GH#5771) Maarten Breddels
修复任务预期文档中的拼写错误 (GH#5767) James Bourbeau
在图页面添加任务期望的文档部分 (GH#5764) Devin Petersohn
2.9.1 / 2019-12-27¶
数组¶
支持 Array.view 使用 dtype=None (GH#5736) Anderson Banihirwe
添加 dask.array.nanmedian (GH#5684) Deepak Cherian
核心¶
在 Python 3.8 上 xfail test_temporary_directory (GH#5734) James Bourbeau
添加对 Python 3.8 的支持 (GH#5603) James Bourbeau
DataFrame¶
在将dask数据帧标量转换为布尔值时引发错误(GH#5743) James Bourbeau
确保数据框分组方差大于零 (GH#5728) Matthew Rocklin
修复 DataFrame.__iter__ (GH#5719) Tom Augspurger
支持在析取范式中的 Parquet 过滤器,如 PyArrow (GH#5656) Matteo De Wint
在基于 ArrowEngine 的 read_parquet 中自动检测分类列 (GH#5690) Richard J Zamora
如果没有找到引擎,跳过parquet getitem优化测试 (GH#5697) James Bourbeau
修复了 parquet-getitem 的独立优化 (GH#5613) Tom Augspurger
文档¶
在多个地方链接到 examples.dask.org (GH#5733) Tom Augspurger
在性能报告示例中添加缺失的引号 (GH#5724) James Bourbeau
解决多个文档构建警告 (GH#5685) James Bourbeau
添加性能报告信息 (GH#5713) Benjamin Zaitlen
添加更多文档免责声明 (GH#5710) Julia Signell
更新 numpydoc 依赖 (GH#5694) James Bourbeau
2.9.0 / 2019-12-06¶
数组¶
修复
da.std
以使其适用于 NumPy 数组 (GH#5681) James Bourbeau
核心¶
为 Numba 和 RMM 注册
sizeof
函数 (GH#5668) John A Kirkham更新会议时间 (GH#5682) Tom Augspurger
DataFrame¶
修改
dd.DataFrame.drop
以使用浅拷贝 (GH#5675) Richard J Zamora修复
_get_md_row_groups
中的错误 (GH#5673) Richard J Zamora查询数据库后关闭sqlalchemy引擎 (GH#5629) Krishan Bhasin
允许
dd.map_partitions
不强制执行元数据 (GH#5660) Matthew Rocklin将
concat_unindexed_dataframes
泛化以支持 cudf-backend (GH#5659) Richard J Zamora添加数据框重采样方法 (GH#5636) Benjamin Zaitlen
计算数据框的长度为第一列的长度 (GH#5635) Matthew Rocklin
文档¶
文档修复 (GH#5665) James Bourbeau
更新文档构建说明 (GH#5640) James Bourbeau
添加文档构建 (GH#5617) James Bourbeau
2.8.1 / 2019-11-22¶
数组¶
如果在
da.rechunk
中没有给出值,请使用自动重新分块 (GH#5605) Matthew Rocklin
核心¶
添加简单操作以激活 GH 操作 (GH#5619) James Bourbeau
DataFrame¶
修复
aggregate_row_groups
中的“file_path_0”错误 (GH#5627) Richard J Zamora为
read_parquet
添加chunksize
参数 (GH#5607) Richard J Zamora将
test_repartition_npartitions
修改为支持 arch64 架构 (GH#5620) ossdev07分组后丢失的类别 (GH#5423) Oliver Hofkens
修复了parquet元数据文件的相对路径问题 (GH#5608) Nuno Gomes Silva
在数据框中启用GPU支持的协方差/相关性 (GH#5597) Richard J Zamora
文档¶
修复机构常见问题和未知文档警告 (GH#5616) James Bourbeau
为一些工具添加文档 (GH#5609) Tom Augspurger
移除
html_extra_path
(GH#5614) James Bourbeau修复了“另请参见”引用 (GH#5612) Tom Augspurger
2.8.0 / 2019-11-14¶
数组¶
实现完整的 dask.array.tile 函数 (GH#5574) Bouwe Andela
沿轴添加中位数并自动重新分块 (GH#5575) Matthew Rocklin
允许 da.asarray 对输入进行分块 (GH#5586) Matthew Rocklin
包¶
在 Bag 名称中使用 key_split (GH#5571) Matthew Rocklin
核心¶
将Doctests切换到Py3.7 (GH#5573) Ryan Nazareth
放宽 get_colors 测试以适应新的 Bokeh 发布 (GH#5576) Matthew Rocklin
添加 dask.blockwise.fuse_roots 优化 (GH#5451) Matthew Rocklin
为小字典添加 sizeof 实现 (GH#5578) Matthew Rocklin
更新 fsspec, gcsfs, s3fs (GH#5588) Tom Augspurger
DataFrame¶
为 groupby 添加 dropna 参数 (GH#5579) Richard J Zamora
恢复“移除 dask_cudf 的导入,它现在是 cudf 的一部分 (GH#5568)” (GH#5590) Matthew Rocklin
文档¶
为 dask.compute 函数添加最佳实践 (GH#5583) Matthew Rocklin
创建 FUNDING.yml (GH#5587) Gina Helfrich
为协调原语添加屏幕录制 (GH#5593) Matthew Rocklin
将资金转移到 .github 仓库 (GH#5589) Tom Augspurger
更新日历链接 (GH#5569) Tom Augspurger
2.7.0 / 2019-11-08¶
此版本放弃了对 Python 3.5 的支持
数组¶
更新 da.array 以始终返回一个 dask 数组 (GH#5510) James Bourbeau
在平凡输入上跳过转置 (GH#5523) Ryan Abernathey
在tokenize中避免使用NumPy标量字符串表示 (GH#5527) James Bourbeau
移除不必要的 tiledb 形状约束 (GH#5545) Norman Barker
从稀疏数组HTML表示中移除字节 (GH#5556) James Bourbeau
核心¶
放弃 Python 3.5 (GH#5528) James Bourbeau
更新分布式测试中夹具的使用 (GH#5497) Matthew Rocklin
避免在 ensure_dict 中使用相同的字典进行更新 (GH#5501) James Bourbeau
测试上游 (GH#5516) Tom Augspurger
加速 reverse_dict (GH#5479) Ryan Grout
更新 test_imports.sh (GH#5534) James Bourbeau
在多进程和线程调度器中支持 cgroups 的 CPU 数量限制 (GH#5499) Albert DeFusco
在CI上更新最小pyarrow版本 (GH#5562) James Bourbeau
使 cloudpickle 成为可选 (GH#5511) crusaderky
DataFrame¶
添加了 index_col 使用的示例 (GH#3072) Bruno Bonfils
显式使用 iloc 进行行索引 (GH#5500) Krishan Bhasin
在列分配时接受 dask 数组 (GH#5224) Henrique Ribeiro-
为 SeriesGroupBy 实现 unique 和 value_counts (GH#5358) Scott Sievert
为 pyarrow 表和列添加 sizeof 定义 (GH#5522) Richard J Zamora
在基于pyarrow的read_parquet中启用行组任务分区 (GH#5508) Richard J Zamora
从 dd.merge 文档字符串中移除 npartitions=’auto’ (GH#5531) James Bourbeau
应用强制错误消息显示非重叠列。(GH#5530) Tom Augspurger
优化重复 dtypes 的 meta_nonempty (GH#5553) Petio Petrov
移除 dask_cudf 的导入,它现在已成为 cudf 的一部分 (GH#5568) Mads R. B. Kristensen
文档¶
在FAQ文档中使大写更加一致 (GH#5512) Matthew Rocklin
添加 CONTRIBUTING.md (GH#5513) Jacob Tomlinson
文档可选依赖 (GH#5456) Prithvi MK
更新 helm chart 文档以反映新的 chart 仓库 (GH#5539) Jacob Tomlinson
将重采样器添加到API文档 (GH#5551) James Bourbeau
添加自适应部署屏幕录像 [skip ci] (GH#5566) Matthew Rocklin
2.6.0 / 2019-10-15¶
核心¶
在进入
toolz.merge
之前对图表调用ensure_dict
(GH#5486) Matthew Rocklin合并哈希分派函数 (GH#5476) Richard J Zamora
DataFrame¶
在 Parquet 代码中支持 Python 3.5 (GH#5491) Benjamin Zaitlen
避免在
warn_dtype_mismatch
中进行身份检查 (GH#5489) Tom Augspurger启用未使用的groupby测试 (GH#3480) Jörg Dietrich
移除旧的parquet和bcolz数据帧优化 (GH#5484) Matthew Rocklin
为
read_parquet
添加 getitem 优化 (GH#5453) Tom Augspurger使用
_constructor_sliced
方法来确定 Series 类型 (GH#5480) Richard J Zamora修复未排序基础系列索引的 map(series) (GH#5459) Justin Waugh
修复
KeyError
与 Groupby 标签 (GH#5467) Ryan Nazareth
文档¶
使用 Zoom 会议代替 appear.in (GH#5494) Matthew Rocklin
更新SSH文档以包含
SSHCluster
(GH#5482) Matthew Rocklin更新“为什么选择Dask?”页面 (GH#5473) Matthew Rocklin
2.5.2 / 2019-10-04¶
数组¶
修正非对称重叠的块大小逻辑 (GH#5449) Ben Jeffery
将 da.unify_chunks 设为公共 API (GH#5443) Matthew Rocklin
文档¶
在Spark比较页面中移除方框 (GH#5445) Matthew Rocklin
更新云文档 (GH#5444) Matthew Rocklin
2.5.0 / 2019-09-27¶
核心¶
在 get_dependencies 任务中添加 sentinel no_default (GH#5420) James Bourbeau
更新 fsspec 版本 (GH#5415) Matthew Rocklin
DataFrame¶
添加选项以不在 dd.from_delayed 中检查元数据 (GH#5436) Christopher J. Wright
修复了使用 pyarrow 主分支时 test_timeseries_nulls_in_schema 的失败问题 (GH#5421) Richard J Zamora
在 pyarrow/parquet 中减少 read_metadata 输出大小 (GH#5391) Richard J Zamora
取消 pandas-datareader 测试的失败标记 (GH#5430) Tom Augspurger
添加 DataFrame.pop 实现 (GH#5422) Matthew Rocklin
为基于cudf的数据帧启用merge/set_index与cupy
values
(GH#5322) Richard J Zamora
文档¶
将屏幕录像添加到数组、包、数据框、延迟、期货和设置中 (GH#5429) (GH#5424) Matthew Rocklin
修复分隔符解析文档 (GH#5428) Mahmut Bulut
更新概览图像 (GH#5404) James Bourbeau
2.4.0 / 2019-09-13¶
数组¶
添加了显式的
h5py.File
模式 (GH#5390) James Bourbeau提供计算未知数组块大小的方法 (GH#5312) Scott Sievert
将
_meta
添加到Array.__dask_postpersist__
(GH#5353) Benoit Bovy修复
da.asarray
和da.asanyarray
对于 datetime64 类型和 xarray 对象的处理 (GH#5334) Stephan Hoyer添加形状实现 (GH#5293) Tom Augspurger
将chunktype添加到数组文本表示中 (GH#5289) James Bourbeau
Array.random.choice: 处理类似数组的非数组 (GH#5283) Gabe Joseph
核心¶
修复
funcname
当向量化函数没有__name__
时 (GH#5399) James Bourbeau截断
funcname
以避免长键名 (GH#5383) Matthew Rocklin在
funcname
中添加对numpy.vectorize
的支持 (GH#5396) James Bourbeau修复HDFS上游测试 (GH#5395) Tom Augspurger
在
parse_bytes
/timedelta
中支持数字和 None (GH#5384) Matthew Rocklin修复在内存映射的numpy数组上对子索引的分词问题 (GH#5351) Henry Pinkard
上游修复 (GH#5300) Tom Augspurger
DataFrame¶
允许 pandas 转换统计数据类型 (GH#5402) Richard J Zamora
为 Series 和 DataFrame 实现 explode (GH#5381) Arpit Solanki
set_index
在分类上失败,类别少于分区 (GH#5354) Oliver Hofkens支持输出到单个CSV文件 (GH#5304) Hongjiu Zhang
添加
groupby().transform()
(GH#5327) Oliver Hofkens在 pyarrow 数据集调用中添加 filter kwarg (GH#5348) Richard J Zamora
为 parquet 实现并检查压缩默认值 (GH#5335) Sarah Bird
将 sqlalchemy 参数传递给延迟对象 (GH#5332) Arpit Solanki
修复 arrow-parquet 中的模式处理 (GH#5307) Richard J Zamora
添加对 DF 和 Series
groupby().idxmin/max()
的支持 (GH#5273) Oliver Hofkens添加相关性计算并添加测试 (GH#5296) Benjamin Zaitlen
文档¶
对数组块文档的微小修改 (GH#5372) Scott Sievert
向API文档添加方法 (GH#5387) Tom Augspurger
为配置示例添加命名空间 (GH#5374) Matthew Rocklin
在诊断页面中添加 get_task_stream 和 profile (GH#5375) Matthew Rocklin
添加使用 Dask 加载数据的最佳实践 (GH#5369) Matthew Rocklin
将线程和进程注释添加到最佳实践中 (GH#5340) Matthew Rocklin
更新 cuDF 链接 (GH#5328) James Bourbeau
修复了括号位置的小拼写错误 (GH#5311) Eugene Huang
更新 reshape 文档字符串中的链接 (GH#5297) James Bourbeau
2.3.0 / 2019-08-16¶
数组¶
当
from_array
接收到一个 dask 数组时引发异常 (GH#5280) David Hoese避免调整 gufunc 的元数据类型两次 (GH#5274) Peter Andreas Entschev
在 map_blocks 中添加
meta=
关键字,并添加与稀疏相关的测试 (GH#5269) Matthew Rocklin添加 rollaxis 和 moveaxis (GH#4822) Tobias de Jong
始终增加旧块索引 (GH#5256) James Bourbeau
Shuffle dask 数组 (GH#3901) Tom Augspurger
在使用布尔型dask数组索引dask数组时修复顺序 (GH#5151) James Bourbeau
包¶
为bag生成器中的内存泄漏添加解决方法 (GH#5208) Marco Neumann
核心¶
设置严格的 xfail 选项 (GH#5220) James Bourbeau
test-upstream (GH#5267) Tom Augspurger
修复HDFS CI失败 (GH#5234) Tom Augspurger
如果未安装 fastparquet 和 pyarrow,请确保跳过 parquet 测试 (GH#5217) James Bourbeau
添加 fsspec 到 readthedocs (GH#5207) Matthew Rocklin
在CI测试中将NumPy和Pandas升级到1.17和0.25 (GH#5179) John A Kirkham
DataFrame¶
修复
DataFrame.query
文档字符串(错误的 numexpr API) (GH#5271) Doug DavisParquet 元数据处理改进 (GH#5218) Richard J Zamora
改进关于索引的排序parquet列的消息传递(GH#5265) Martin Durant
为 cudf 添加
rearrange_by_divisions
和set_index
支持 (GH#5205) Richard J Zamora修复
groupby.std()
带有整数列名的问题 (GH#5096) Nicolas Hug将
hash_pandas_object
泛化以适用于非 pandas 后端 (GH#5184) GALI PREM SAGAR添加滚动覆盖率 (GH#5154) Ivars Geidans
在drop函数中添加columns参数 (GH#5223) Henrique Ribeiro
文档¶
更新机构常见问题文档 (GH#5277) Matthew Rocklin
添加机构常见问题草稿 (GH#5214) Matthew Rocklin
为 dask-spark 页面制作盒子 (GH#5249) Martin Durant
添加shuffle文档的动机 (GH#5213) Matthew Rocklin
修复链接和API条目以符合最佳实践 (GH#5246) Martin Durant
移除“字节”(内部数据摄取)文档页面 (GH#5242) Martin Durant
从我们的本地分布式页面重定向到 distributed.dask.org (GH#5248) Matthew Rocklin
清理 API 页面 (GH#5247) Matthew Rocklin
从安装文档中删除多余的结束行 (GH#5243) Matthew Rocklin
移除计算阶段文档中的项目列表 (GH#5245) Martin Durant
从TOC侧边栏中移除自定义图表 (GH#5241) Matthew Rocklin
移除自定义集合的实验状态 (GH#5236) James Bourbeau
添加目录到为什么选择Dask? (GH#5244) James Bourbeau
将背包概览移动到顶级背包页面 (GH#5240) James Bourbeau
移除用例,改为使用 stories.dask.org (GH#5238) Matthew Rocklin
移除 index.rst 中冗余的目录信息 (GH#5235) James Bourbeau
在分布式诊断文档中提升仪表盘 (GH#5239) Martin Durant
在HLG文档示例中更新“添加”层 (GH#5237) James Bourbeau
更新 GUFunc 文档 (GH#5232) Matthew Rocklin
2.2.0 / 2019-08-01¶
数组¶
如果输入遵循 NEP-18 (GH#5074) Matthew Rocklin,请使用 da.from_array(…, asarray=False)
为 from_array 文档添加缺失的属性 (GH#5108) Peter Andreas Entschev
修复某些归约函数的元计算 (GH#5035) Peter Andreas Entschev
如果在 to_zarr 中遇到未知块,则引发信息性错误 (GH#5148) James Bourbeau
移除无效的填充测试 (GH#5122) Tom Augspurger
在 compute_meta 中忽略 NumPy 警告 (GH#5103) Peter Andreas Entschev
修复单维度输入数组的峰度计算 (GH#5177) @andrethrill
在测试中支持 Numpy 1.17 (GH#5192) Matthew Rocklin
包¶
向袋测试提供供应池以解决间歇性失败 (GH#5172) Tom Augspurger
核心¶
基于 fsspec 的 dask (GH#5064) (GH#5121) Martin Durant
各种上游兼容性修复 (GH#5056) Tom Augspurger
再次将分布式测试设为可选。(GH#5128) Elliott Sales de Andrade
修复 dask 中的 HDFS (GH#5130) Martin Durant
忽略一些更多的无效值警告。(GH#5140) Elliott Sales de Andrade
DataFrame¶
修复 pd.MultiIndex 大小估计 (GH#5066) Brett Naul
泛化 has_known_categories (GH#5090) GALI PREM SAGAR
重构 Parquet 引擎 (GH#4995) Richard J Zamora
修复不稳定的 partd 测试 (GH#5111) Tom Augspurger
调整 is_dataframe_like 以适应 value_counts 的变化 (GH#5143) Tom Augspurger
将滚动窗口泛化以支持非Pandas数据框 (GH#5149) Nick Becker
避免在 pivot_table 中不必要的聚合 (GH#5173) Daniel Saxton
在apply_and_enforce错误信息中添加列名 (GH#5180) Matthew Rocklin
向 to_parquet 添加 schema 关键字参数 (GH#5150) Sarah Bird
允许 fastparquet 处理 gather_statistics=False 的文件列表 (GH#5157) Richard J Zamora
文档¶
在 README 中添加 NumFOCUS 徽章 (GH#5086) James Bourbeau
文档 DataFrame.set_index 计算行为 Natalya Rapstine
使用 pip install . 而不是调用 setup.py (GH#5139) Matthias Bussonier
关闭用户调查 (GH#5147) Tom Augspurger
修复Google日历会议链接 (GH#5155) Loïc Estève
添加 Docker 镜像自定义示例 (GH#5171) James Bourbeau
在 fsspec 之后更新 remote-data-services (GH#5170) Martin Durant
修复了 spark.rst 中的拼写错误 (GH#5164) Xavier Holt
更新 setup/python 文档以支持 async/await API (GH#5163) Matthew Rocklin
更新本地存储HPC文档 (GH#5165) Matthew Rocklin
2.1.0 / 2019-07-08¶
数组¶
为
svd_compressed
添加recompute=
关键字以减少内存使用 (GH#5041) Matthew Rocklin为向后兼容更改
__array_function__
实现 (GH#5043) Ralf Gommers为
apply_along_axis
添加了dtype
和shape
关键字参数 (GH#3742) Davis Bennett修复空元组轴的减少问题 (GH#5025) Peter Andreas Entschev
在
stack
中删除大小为 0 的数组 (GH#4978) John A Kirkham
核心¶
从 pandas
to_parquet
调用中移除索引关键字 (GH#5075) James Bourbeau修复上游开发CI构建安装 (GH#5072) James Bourbeau
确保标量数组不被渲染为SVG (GH#5058) Willi Rath
环境创建重构 (GH#5038) Tom Augspurger
s3fs, moto 兼容性 (GH#5033) Tom Augspurger
pytest 5.0 兼容 (GH#5027) Tom Augspurger
DataFrame¶
修复
compute_meta
在 blockwise 中的递归 (GH#5048) Peter Andreas Entschev在
get_dummies
中移除对 pandas 的硬依赖 (GH#5057) GALI PREM SAGAR在重新分区中处理不可分割的大小 (GH#5013) George Sakkis
处理了 pyarrow 中的时间戳和
preserve_index
变化 (GH#5018) Richard J Zamora修复
str.split(expand=False)
的未定义meta
(GH#5022) Brett Naul移除了用于调试
merge_asof
的检查 (GH#5011) Cody Johnson在数据框中获取访问器时不要使用类型 (GH#4992) Matthew Rocklin
将
melt
作为 Dask DataFrame 的方法 (GH#4984) Dustin Tindall为
to_hdf
添加路径类支持 (GH#5003) James Bourbeau
文档¶
指向 JupyterHub 文档中的最新 K8s 设置文章 (GH#5065) Sean McKenna
将 vizualize 改为 visualize (GH#5061) David Brochart
修复延迟最佳实践中的
from_sequence
拼写错误 (GH#5045) James Bourbeau在文档中添加用户调查链接 (GH#5026) James Bourbeau
修复了优化文档中的拼写错误 (GH#5015) James Bourbeau
更新社区会议信息 (GH#5006) Tom Augspurger
2.0.0 / 2019-06-25¶
数组¶
在da.indices中支持自动分块 (GH#4981) James Bourbeau
如果没有数组可以堆叠则报错 (GH#4975) John A Kirkham
非对称数组重叠 (GH#4863) Michael Eaton
在dask数组内尽可能地调度连接 (GH#4669) Hameer Abbasi
修复在同一文件的不同部分对内存映射的 numpy 数组进行分词的问题 (GH#4931) Henry Pinkard
在 da.asarray 中保留 NumPy 条件以保持输出形状 (GH#4945) Alistair Miles
扩展 foo_like_safe 用法 (GH#4946) Peter Andreas Entschev
将einsum参数的顺序/类型转换推迟到NumPy实现 (GH#4914) Peter Andreas Entschev
在矩计算中移除 numpy 警告 (GH#4921) Matthew Rocklin
修复 meta_from_array 以支持 Xarray 测试套件 (GH#4938) Matthew Rocklin
缓存整数切片的块边界 (GH#4923) Bruce Merry
在连接中丢弃大小为0的数组 (GH#4167) John A Kirkham
如果没有给定数组,则引发 ValueError (GH#4927) John A Kirkham
使用 _meta 在 concatenate 中提升类型 (GH#4925) John A Kirkham
在Dask数组中为html repr添加块类型 (GH#4895) Matthew Rocklin
- 添加 Dask Array._meta 属性 (GH#4543) Peter Andreas Entschev
修复灵活类型的 _meta 切片 (GH#4912) Peter Andreas Entschev
在concatenate中进行了小的元构建清理 (GH#4937) Peter Andreas Entschev
进一步放宽 Xarray 的数组元检查 (GH#4944) Matthew Rocklin
在 da.from_delayed 中支持 meta= 关键字 (GH#4972) Matthew Rocklin
沿轴连接元数据 (GH#4977) John A Kirkham
在堆栈中使用元数据 (GH#4976) John A Kirkham
将 blockwise_meta 移动到更通用的 compute_meta 函数 (GH#4954) Matthew Rocklin
将 dask 数组的 .partitions 别名为 .blocks 属性 (GH#4853) Genevieve Buckley
删除过时的 numpy_compat 函数 (GH#4850) John A Kirkham
允许 da.eye 在 chunks=’auto’ 时支持任意块大小 (GH#4834) Anderson Banihirwe
修复 dask.array 测试中的 CI 警告 (GH#4805) Tom Augspurger
使 map_blocks 与 drop_axis + block_info 一起工作 (GH#4831) Bruce Merry
在 Array._repr_html_ 中添加 SVG 图像和表格 (GH#4794) Matthew Rocklin
ufunc: 避免使用 __array_wrap__ 而支持 __array_function__ (GH#4708) Peter Andreas Entschev
确保微小填充返回原始数组 (GH#4990) John A Kirkham
测试
da.block
与 0 大小的数组 (GH#4991) John A Kirkham
核心¶
CI 中的静默依赖安装 (GH#4960) Tom Augspurger
在测试中引发警告 (GH#4916) Tom Augspurger
在 setup.py 中添加诊断扩展(包括 bokeh)(GH#4924) John A Kirkham
重载 HighLevelGraphs 的 values 方法 (GH#4918) James Bourbeau
将 __await__ 方法添加到 Dask 集合中 (GH#4901) Matthew Rocklin
如果安装了 snappy(非 python-snappy),也忽略可能发生的 AttributeErrors (GH#4908) Mark Bell
在 config.rename 中规范化键名 (GH#4903) Ian Bolliger
将最小 partd 版本提升至 0.3.10 (GH#4890) Tom Augspurger
捕获 async def 语法错误 (GH#4836) James Bourbeau
在 ensure_file 中捕获 IOError (GH#4806) Justin Poehnelt
清理 CI 警告 (GH#4798) Tom Augspurger
将 distributed 的解析和格式化功能移至 dask.utils (GH#4793) Matthew Rocklin
应用黑色格式化 (GH#4983) James Bourbeau
wheels 中的包许可证文件 (GH#4988) John A Kirkham
DataFrame¶
为 repartition 添加一个可选的 partition_size 参数 (GH#4416) George Sakkis
merge_asof 和 prefix_reduction (GH#4877) Cody Johnson
允许数据框由 dask 数组索引 (GH#4882) Endre Mark Borza
避免在 pytest.raises 中使用已弃用的 message 参数 (GH#4962) James Bourbeau
在数据帧访问器中移除 pandas 固定 (GH#4955) Matthew Rocklin
修复具有相同名称的序列的相关性 (GH#4934) Philipp S. Sommer
将 Dask 系列映射到 Dask 系列 (GH#4872) Justin Waugh
添加 groupby 协方差/相关性 (GH#4889) Benjamin Zaitlen
保持索引名称与 to_datetime (GH#4905) Ian Bolliger
为数据框添加并行方差计算 (GH#4865) Ksenia Bobrova
向数组和数据框添加 divmod 实现 (GH#4884) Henrique Ribeiro
避免使用 pandas.compat (GH#4881) Tom Augspurger
为 Series、DataFrame 和 Index 添加了访问器注册 (GH#4829) Tom Augspurger
向 read_json 添加 read_function 关键字 (GH#4810) Richard J Zamora
在 check_meta 中提供完整的类型名称 (GH#4819) Matthew Rocklin
为 describe() 添加非数值数据的支持 (GH#4791) Ksenia Bobrova
扩展数据类型的标量。(GH#4459) Tom Augspurger
在 dd.from_delayed 中调用 head 之前进行 compute (GH#4802) Matthew Rocklin
在具有基于时间的索引的 DataFrame 中,添加对窗口大于分区大小的滚动操作的支持 (GH#4796) Jorge Pessoa
更新 groupby-apply 文档并添加警告 (GH#4800) Tom Augspurger
在 _maybe_slice 中更改 groupby-ness 测试 (GH#4786) Benjamin Zaitlen
添加主最佳实践文档 (GH#4745) Matthew Rocklin
添加关于Dask如何与GPU协同工作的文档 (GH#4792) Matthew Rocklin
添加 cli API 文档 (GH#4788) James Bourbeau
确保 concat 输出具有一致的 dtypes (GH#4692) Guillaume Lemaitre
修复了 pandas_datareader 依赖项的安装 (GH#4989) James Bourbeau
在 read_hdf 中接受 pathlib.Path 作为模式 (GH#3335) Jörg Dietrich
文档¶
将CLI API文档移动到相关页面 (GH#4980) James Bourbeau
将 to_datetime 函数添加到 dataframe API 文档 Matthew Rocklin
为 dask.array.ma.average 添加文档条目 (GH#4970) Bouwe Andela
将 bag.read_avro 添加到 bag API 文档 (GH#4969) James Bourbeau
移除修改变更日志的要求 (GH#4915) Matthew Rocklin
添加关于元列顺序的文档 (GH#4887) Tom Augspurger
在 DataFrame.shift 中添加文档注释 (GH#4886) Tom Augspurger
文档: 修正拼写错误 (GH#4868) Paweł Kordek
将“做/不做”放入延迟最佳实践文档的框中 (GH#3821) Martin Durant
文档修复 (GH#2528) Tom Augspurger
将 quansight 添加到付费支持文档部分 (GH#4838) Martin Durant
为自定义启动添加文档 (GH#4833) Matthew Rocklin
允许 utils.derive_from 接受函数,应用于数组 (GH#4804) Martin Durant
在最佳实践中添加“避免大分区”部分 (GH#4808) Matthew Rocklin
将 joblib 的 URL 更新为新的网站托管其文档 (GH#4816) Christian Hudon
1.2.2 / 2019-05-08¶
数组¶
澄清 regions kwarg 到 array.store (GH#4759) Martin Durant
将 dtype= 参数添加到 da.random.randint (GH#4753) Matthew Rocklin
在文档字符串中使用“行优先”而不是“C顺序”(GH#4452)`@asmith26`_
将 Xarray 数据集标准化为 Dask 数组 (GH#4756) Matthew Rocklin
在 da.histogram 中移除 normed 关键字 (GH#4755) Matthew Rocklin
包¶
向 Bag.distinct 添加键参数 (GH#4423) Daniel Severo
核心¶
添加核心 dask 配置文件 (GH#4774) Matthew Rocklin
将核心 dask 配置文件添加到 MANIFEST.in (GH#4780) James Bourbeau
启用HTTP文件系统的glob功能 (GH#3926) Martin Durant
HTTPFile.seek 使用 whence=1 (GH#4751) Martin Durant
DataFrame¶
在 dask.dataframe.groupby 中移除对 Pandas 的显式引用 (GH#4778) Matthew Rocklin
在 DataFrame.groupby() 中添加对 group_keys kwarg 的支持 (GH#4771) Brian Chu
描述文档 (GH#4762) Martin Durant
在累积聚合中移除显式的 pandas 检查 (GH#4765) Nick Becker
为 read_json 和 test 添加了元数据 (GH#4588) Abhinav Ralhan
添加 dtype 转换的测试 (GH#4760) Martin Durant
实现 Series.str.split(expand=True) (GH#4744) Matthew Rocklin
文档¶
对 develop.rst 的调整,尝试运行测试 (GH#4772) Christian Hudon
添加描述计算阶段的文档 (GH#4766) Matthew Rocklin
在 Spark 文档中引导用户使用 Dask-Yarn (GH#4770) Matthew Rocklin
更新延迟文档中的图像以移除标签 (GH#4768) Martin Durant
解释 dask 数组的中间存储 (GH#4025) John A Kirkham
指定数组中的bash代码块最佳实践 (GH#4764) James Bourbeau
添加数组最佳实践文档 (GH#4705) Matthew Rocklin
更新优化文档,因为剔除操作不再是自动的 (GH#4752) Matthew Rocklin
1.2.1 / 2019-04-29¶
数组¶
修复带有 block_info 和广播的 map_blocks (GH#4737) Bruce Merry
在 da.bincount 中使 ‘minlength’ 关键字参数可选 (GH#4684) Genevieve Buckley
添加对没有数组参数的 map_blocks 的支持 (GH#4713) Bruce Merry
添加 dask.array.trace (GH#4717) Danilo Horta
为 cupy.ndarray 添加 sizeof 支持 (GH#4715) Peter Andreas Entschev
将 name kwarg 添加到 from_zarr (GH#4663) Michael Eaton
在 from_array 中添加 chunks=’auto’ (GH#4704) Matthew Rocklin
如果为 da.ones、zeros、empty 或 full 提供 dask 数组作为形状,则引发 TypeError (GH#4707) Genevieve Buckley
添加 TileDB 后端 (GH#4679) Isaiah Norton
核心¶
延迟长列表参数 (GH#4735) Matthew Rocklin
删除文件“test” (GH#4710) James Bourbeau
重新启用开发构建,使用上游库 (GH#4696) Peter Andreas Entschev
在 HighLevelGraph 构造函数中移除断言 (GH#4699) Matthew Rocklin
DataFrame¶
更改累积聚合的最后一个非空值算法 (GH#4736) Nick Becker
重构 array.percentile 和 dataframe.quantile 以使用 t-digest (GH#4677) Janne Vuorela
允许对排序后的数据框进行简单拼接 (GH#4725) Matthew Rocklin
通过使用 methodcaller 移除硬 pandas 依赖以实现 melt (GH#4719) Nick Becker
添加 Dataframe.replace (GH#4714) Matthew Rocklin
为 pd.DataFrame.dropna 添加 ‘threshold’ 参数 (GH#4625) Nathan Matare
文档¶
在文档字符串的早期添加关于派生文档字符串的警告 (GH#4716) Matthew Rocklin
创建数据框最佳实践文档 (GH#4703) Matthew Rocklin
取消注释 dask_sphinx_theme (GH#4728) James Bourbeau
修复了Queue/fire_and_forget示例中的小拼写错误 (GH#4709) Matthew Rocklin
更新 from_pandas 文档字符串以匹配签名 (GH#4698) James Bourbeau
1.2.0 / 2019-04-12¶
数组¶
修复了稀疏数组上的 mean() 和 moment() 方法 (GH#4525) Peter Andreas Entschev
添加对 NEP-18 的测试。(GH#4675) Hameer Abbasi
在 normalize_chunks 中允许 None 表示“不进行分块” (GH#4656) Matthew Rocklin
修复 auto_chunks 中的限制值 (GH#4645) Matthew Rocklin
核心¶
更新了与 bokeh>=1.1.0 兼容的诊断 bokeh 测试 (GH#4680) Philipp Rudiger
调整 codecov 的目标/阈值,禁用补丁 (GH#4671) Peter Andreas Entschev
始终从空的 http 缓冲区开始,而不是 None (GH#4673) Martin Durant
DataFrame¶
在从数组创建dask数据帧时传播索引数据类型和名称(GH#4686) Henrique Ribeiro
清理并文档化 rearrange_column_by_tasks (GH#4674) Matthew Rocklin
标记一些 parquet 测试为 xfail (GH#4667) Peter Andreas Entschev
修复了与 arrow 0.13.0 相关的 parquet 问题 (GH#4668) Martin Durant
修复在加载 parquet 文件时对时区元数据的推断 (GH#4655) Martin Durant
在 dd.utils 中使用 is_dataframe/index_like (GH#4657) Matthew Rocklin
在 groupby sum 方法中添加 min_count 参数 (GH#4648) Henrique Ribeiro
文档¶
添加延迟的额外依赖项以安装文档 (GH#4660) James Bourbeau
1.1.5 / 2019-03-29¶
数组¶
确保我们在 normalize_chunks 中使用 dtype 关键字 (GH#4646) Matthew Rocklin
核心¶
在 LocalFileSystem 中使用递归 glob (GH#4186) Brett Naul
避免 YAML 弃用 (GH#4603)
修复CI并添加 set -e (GH#4605) James Bourbeau
在 dask.visualize 中支持内置序列类型 (GH#4602)
解包/重新打包有序字典 (GH#4623) Justin Poehnelt
将 da.random.randint 添加到 API 文档 (GH#4628) James Bourbeau
将 zarr 添加到 CI 环境 (GH#4604) James Bourbeau
启用 codecov (GH#4631) Peter Andreas Entschev
DataFrame¶
支持设置索引 (GH#4565)
DataFrame.itertuples 接受 index, name kwargs (GH#4593) Dan O’Donovan
在 dd.Series.unique 中支持非 Pandas 系列 (GH#4599) Benjamin Zaitlen
使用 ._is_partition_type 谓词替换显式类型检查 (GH#4533)
在测试中移除额外的 pandas 警告 (GH#4576)
检查对象的 name/dtype 属性而不是类型 (GH#4606)
修复将分类代码设置为浮点数时产生的警告 (GH#4624) Julia Signell
修复索引 to_frame 方法的重命名 (GH#4498) Henrique Ribeiro
修复合并两个单分区数据帧时的分割问题 (GH#4636) Justin Waugh
提供信息性元警告 (GH#4637) Matthew Rocklin
在 Series.__getitem__ 中添加信息性错误消息 (GH#4638) Matthew Rocklin
在使用 read_csv 时,当使用 index 或 index_col 时添加清晰的异常信息 (GH#4651) Álvaro Abella Bascarán
文档¶
为自定义分组聚合添加文档 (GH#4571)
文档数据框连接 (GH#4569)
指定基于分支的贡献 (GH#4619) James Bourbeau
在文档中修正 to_parquet 示例 (GH#4641) Aaron Fowles
更新并保护多个引用 (GH#4649) Søren Fuglede Jørgensen
1.1.4 / 2019-03-08¶
数组¶
在压缩中使用掩码选择 (GH#4548) John A Kirkham
在 extract 中使用 asarray (GH#4549) John A Kirkham
在测试连接时使用正确的数据类型。(GH#4539) Elliott Sales de Andrade
修复 CuPy 测试或正确标记为 xfail (GH#4564) Peter Andreas Entschev
核心¶
在 read_bytes(sample=…) 中使用 parse_bytes (GH#4554) Matthew Rocklin
DataFrame¶
修复对象类型键上的groupby标准差问题 (GH#4541) Matthew Rocklin
TST/CI: 更新 pandas 0.24.1 (GH#4551) Tom Augspurger
添加控制时间序列中唯一元素数量的能力(GH#4557)`Matthew Rocklin`_
在 read_csv 中添加对参数 skiprows 支持其他可迭代对象 (GH#4560) @JulianWgs
文档¶
DataFrame 到数组转换及未知块 (GH#4516) Scott Sievert
为随机数组创建添加文档 (GH#4566) Matthew Rocklin
修复文档字符串中的拼写错误 (GH#4572) Shyam Saladi
1.1.3 / 2019-03-01¶
数组¶
修改均值块函数以返回字典而非数组 (GH#4513) Matthew Rocklin
在CI中更改稀疏安装以兼容NumPy/Python2 (GH#4537) Matthew Rocklin
DataFrame¶
在 pandas/其他数据框类型上使合并可分派 (GH#4522) Matthew Rocklin
read_sql_table - 日期时间索引修复和索引类型检查 (GH#4474) Joe Corbett
使用通用的索引检查形式 (is_index_like) (GH#4531) Benjamin Zaitlen
为对象类型的groupby归约添加测试 (GH#4535) Matthew Rocklin
文档¶
在文档索引中添加缺失的方法 (GH#4528) Bart Broere
1.1.2 / 2019-02-25¶
数组¶
修复了 normalize_array 中的另一个 unicode/混合类型边缘情况 (GH#4489) Marco Neumann
添加 dask.array.diagonal (GH#4431) Danilo Horta
修改 moment chunk 函数以返回字典 (GH#4519) Peter Andreas Entschev
包¶
确保 bag.from_sequence 总是包含至少一个分区 (GH#4475) Anderson Banihirwe
为 bag.fold 实现 out_type (GH#4502) Matthew Rocklin
从包键名中移除映射 (GH#4500) Matthew Rocklin
避免在 map_partitions 中使用 itertools.repeat (GH#4507) Matthew Rocklin
DataFrame¶
在使用 fastparquet 时修复 Windows 上的相对路径解析 (GH#4445) Janne Vuorela
修复了 pyarrow 和 hdfs 中的错误 (GH#4453) (GH#4455) Michał Jastrzębski
将特定于cudf的代码替换为dask-cudf导入 (GH#4470) Matthew Rocklin
避免在 groupby-var 中使用 groupby.agg(callable) (GH#4482) Matthew Rocklin
在 check_meta 中将 uint 类型视为数值 (GH#4485) Marco Neumann
修复了groupby注释中的一些拼写错误 (GH#4494) Daniel Saxton
在 set_index(inplace=True) 周围添加错误消息 (GH#4501) Matthew Rocklin
将模块名称添加到预期的元错误消息中 (GH#4499) Matthew Rocklin
文档¶
更新文档以使用
from_zarr
(GH#4472) John A Kirkham修复变更日志中的节标题级别 (GH#4483) Bruce Merry
为 pip install 添加引号 [跳过 CI] (GH#4508) James Bourbeau
核心¶
在状态初始化后扩展 started_cbs (GH#4460) Marco Neumann
修复了HTTPFile._fetch_range中的错误,并添加了headers (GH#4479) (GH#4480) Ross Petchler
重复优化 diamond fusion 的 optimize_blockwise (GH#4492) Matthew Rocklin
1.1.1 / 2019-01-31¶
数组¶
添加对 cupy.einsum 的支持 (GH#4402) Johnnie Gray
在chunks关键词中提供字节大小 (GH#4434) Adam Beberg
为直方图的箱子和范围引发更详细的错误 (GH#4430) James Bourbeau
DataFrame¶
延迟注册更多 cudf 函数并移至后端文件 (GH#4396) Matthew Rocklin
rearrange_by_column: 确保在 dask.config 中,如果 shuffle 参数为 None,则默认值为 ‘disk’ (GH#4414) George Sakkis
为 _read_pyarrow 实现过滤器 (GH#4415) George Sakkis
避免在 is_dataframe_like 中检查类型 (GH#4418) Matthew Rocklin
使用 pyarrow 时,将用户名作为 ‘user’ 传递 (GH#4438) Roma Sokolov
延迟¶
修复 DelayedAttr 返回值 (GH#4440) Matthew Rocklin
文档¶
使用SVG作为管道图形 (GH#4406) John A Kirkham
将 doctest-modules 添加到 py.test 文档 (GH#4427) Daniel Severo
核心¶
解决 psutil 5.5.0 不允许对 Process 对象进行序列化的问题 Janne Vuorela
1.1.0 / 2019-01-18¶
数组¶
修复当存在掩码数组时的平均函数 (GH#4236) Damien Garaud
为 hstack 和 vstack 添加 allow_unknown_chunksizes (GH#4287) Paul Vecchio
修复 tensordot 在 27+ 维度的问题 (GH#4304) Johnnie Gray
修复了带有轴的 block_info。(GH#4301) Tom Augspurger
使用 safe_wraps 进行 matmul (GH#4346) Mark Harfouche
在数组创建例程中使用 chunks=”auto” (GH#4354) Matthew Rocklin
修复 dask.array.Array.__array_ufunc__ 中的 np.matmul (GH#4363) Stephan Hoyer
COMPAT: 重新启用多字段复制->视图更改 (GH#4357) Diane Trout
重构 normalize_array 以处理 numpy 数据 (GH#4312) Marco Neumann
DataFrame¶
为系列比较添加 fill_value 支持 (GH#4250) James Bourbeau
在 read_sql_table 中为空表添加模式名称 (GH#4268) Mina Farid
在 map_blocks 中调整对坏块的检查 (GH#4308) Tom Augspurger
在dask数据框中使用atop融合 (GH#4229) Matthew Rocklin
在 from_pandas 中使用 parallel_types() (GH#4331) Matthew Rocklin
将 DataFrame._repr_data 更改为方法 (GH#4330) Matthew Rocklin
为 Appveyor 安装 pyarrow fastparquet (GH#4338) Gábor Lipták
移除显式的 pandas 检查并提供 cudf 的延迟注册 (GH#4359) Matthew Rocklin
将 isinstance(…, pandas) 替换为 is_dataframe_like (GH#4375) Matthew Rocklin
增强:支持第三方 ExtensionArrays (GH#4379) Tom Augspurger
Pandas 0.24.0 兼容 (GH#4374) Tom Augspurger
文档¶
修复数组API文档中对’map_blocks’函数的链接 (GH#4258) David Hoese
复制编辑文档 (GH#4267), (GH#4263), (GH#4262), (GH#4277), (GH#4271), (GH#4279), (GH#4265), (GH#4295), (GH#4293), (GH#4296), (GH#4302), (GH#4306), (GH#4318), (GH#4314), (GH#4309), (GH#4317), (GH#4326), (GH#4325), (GH#4322), (GH#4332), (GH#4333), Miguel Farrajota
文档: 更新 array-api.rst (GH#4259) (GH#4282) Prabakaran Kumaresshan
更新hpc文档 (GH#4266) Guillaume Eynard-Bontemps
文档:在文档中用 read_avro 替换 from_avro (GH#4313) Prabakaran Kumaresshan
在文档中移除对“get”调度器函数的引用 (GH#4350) Matthew Rocklin
修复文档字符串中的拼写错误 (GH#4376) Daniel Saxton
为 dask.dataframe.merge 添加了文档 (GH#4382) Jendrik Jördening
核心¶
避免在 dask.core.get 中递归 (GH#4219) Matthew Rocklin
从 pytest 的 setup.cfg 中移除冗余标志 (GH#4281) Matthew Rocklin
通过明确指定标记来支持 Pytest 4.0 (GH#4280) Takahiro Kojima
添加高级图表 (GH#4092) Matthew Rocklin
修复 SerializableLock 的锁定和获取方法 (GH#4294) Stephan Hoyer
在测试中将 boto3 固定到较早版本以避免 moto 冲突 (GH#4276) Martin Durant
在更新配置时将 None 视为缺失 (GH#4324) Matthew Rocklin
更新 Appveyor 至 Python 3.6 (GH#4337) Gábor Lipták
在 dask.dataframe/bytes/bag 中更自由地使用 parse_bytes (GH#4339) Matthew Rocklin
当缺少 cloudpickle 时添加更好的错误信息 (GH#4342) Mark Harfouche
在线程/多进程获取函数中支持 pool= 关键字参数 (GH#4351) Matthew Rocklin
允许在 config.update 中从任意映射进行更新,而不仅仅是字典。(GH#4356) Stuart Berg
将 dask/array/top.py 代码移至 dask/blockwise.py (GH#4348) Matthew Rocklin
添加 has_parallel_type (GH#4395) Matthew Rocklin
CI: 更新 Appveyor (GH#4381) Tom Augspurger
1.0.0 / 2018-11-28¶
数组¶
添加 nancumsum/nancumprod 单元测试 (GH#4215) crusaderky
DataFrame¶
在 to_dask_dataframe 文档字符串中添加索引 (GH#4232) James Bourbeau
使用 fastparquet 追加分类数据时修复 (GH#4245) Martin Durant
在将 ParquetFile 传递给 read_parquet 时不要重新读取元数据 (GH#4247) Martin Durant
文档¶
核心¶
避免一些警告 (GH#4223) Matthew Rocklin
移除 dask.store 模块 (GH#4221) Matthew Rocklin
移除 AUTHORS.md Jim Crist
0.20.2 / 2018-11-15¶
数组¶
避免在顶部归约中融合依赖 (GH#4207) Matthew Rocklin
数据框¶
改进数据框相关性的内存占用 (GH#4193) Damien Garaud
在 boundary_slice 中添加空 DataFrame 检查 (GH#4212) James Bourbeau
文档¶
复制编辑文档 (GH#4197) (GH#4204) (GH#4198) (GH#4199) (GH#4200) (GH#4202) (GH#4209) Miguel Farrajota
添加统计模块命名空间 (GH#4206) James Bourbeau
修复数据框文档中的链接 (GH#4208) James Bourbeau
0.20.1 / 2018-11-09¶
数组¶
仅在 wrapped_pad_func (GH#4153) John A Kirkham 中分配结果空间
将 expand_pad_width 泛化为 expand_pad_value (GH#4150) John A Kirkham
使用2D linear_ramp案例测试da.pad (GH#4162) John A Kirkham
重写 Dask Array 的 pad 以仅添加新块 (GH#4152) John A Kirkham
验证 atop 的索引输入 (GH#4182) Matthew Rocklin
核心¶
Dask.config 设置和获取规范化下划线和连字符 (GH#4143) James Bourbeau
仅限核心集合的子集,不包括子类 (GH#4159) Matthew Rocklin
为 HTTPFileSystem 添加 block_size=0 选项。(GH#4171) Martin Durant
为数据类添加遍历支持 (GH#4165) Armin Berres
避免在没有依赖关系的共享字典上进行优化 (GH#4181) Matthew Rocklin
更新 TravisCI 的 pytest 版本 (GH#4189) Damien Garaud
在可视化名称中使用 key_split 而不是 funcname (GH#4160) Matthew Rocklin
数据框¶
为 DataFrame.__setitem__ 添加索引修复 (GH#4151) Anderson Banihirwe
修复在传递文件列表给 fastparquet 时的列选择 (GH#4174) Martin Durant
从 read_sql_table 传递 engine_kwargs 到 sqlalchemy (GH#4187) Damien Garaud
文档¶
修复延迟最佳实践示例中的文档,该示例返回了一个空列表 (GH#4147) Jonathan Fraine
复制编辑文档 (GH#4164) (GH#4175) (GH#4185) (GH#4192) (GH#4191) (GH#4190) (GH#4180) Miguel Farrajota
修复文档字符串中的拼写错误 (GH#4183) Carlos Valiente
0.20.0 / 2018-10-26¶
数组¶
Fuse Atop 操作 (GH#3998), (GH#4081) Matthew Rocklin
支持在 dask 数据帧上使用 da.asanyarray (GH#4080) Matthew Rocklin
在日期时间测试中移除不必要的字节序检查 (GH#4113) Elliott Sales de Andrade
在数组 foo_like 函数中设置 name=False (GH#4116) Matthew Rocklin
移除 dask.array.ghost 模块 (GH#4121) Matthew Rocklin
修复 dask 数组中 getargspec 的使用 (GH#4125) Stephan Hoyer
添加了 dask.array.invert (GH#4127), (GH#4131) Anderson Banihirwe
在未知chunksize上进行arg-reduction时引发信息性错误(GH#4128),(GH#4135) Matthew Rocklin
在 dask 数组中规范化反转切片 (GH#4126) Matthew Rocklin
包¶
添加 bag.to_avro (GH#4076) Martin Durant
核心¶
从 config.get 中提取 num_workers (GH#4086), (GH#4093) James Bourbeau
使用原始字符串修复无效的转义序列 (GH#4112) Elliott Sales de Andrade
在使用 get= 关键字和 set_options 时引发错误 (GH#4077) Matthew Rocklin
添加 Azure DataLake 存储的导入,并添加文档 (GH#4132) Martin Durant
避免使用 collections.Mapping/Sequence (GH#4138) Matthew Rocklin
数据框¶
在 to_dask_dataframe 中包含索引关键字 (GH#4071) Matthew Rocklin
为 DataFrame 方法 sum 和 prod 实现 min_count (GH#4090) Bart Broere
在连接中移除 pandas 警告 (GH#4095) Matthew Rocklin
DataFrame.to_csv 的 header 选项,仅在第一个块中输出标题 (GH#3909) Rahul Vaidya
移除 Series.to_parquet (GH#4104) Justin Dennison
避免警告和弃用的pandas方法 (GH#4115) Matthew Rocklin
在报告追加错误时交换 ‘old’ 和 ‘previous’ (GH#4130) Martin Durant
文档¶
复制编辑文档 (GH#4073), (GH#4074), (GH#4094), (GH#4097), (GH#4107), (GH#4124), (GH#4133), (GH#4139) Miguel Farrajota
修复代码示例中的拼写错误 (GH#4089) Antonino Ingargiola
gcsfs 的快速描述 (GH#4109) Martin Durant
修复了 read_sql_table 方法文档字符串中的拼写错误 (GH#4114) TakaakiFuruse
如果目标目录在重定向中不存在,则创建它们 (GH#4136) Matthew Rocklin
0.19.4 / 2018-10-09¶
数组¶
实现
apply_gufunc(..., axes=..., keepdims=...)
(GH#3985) Markus Gonser
包¶
修复了 datasets.make_people 中的拼写错误 (GH#4069) Matthew Rocklin
数据框¶
为 dask.dataframe.describe 方法添加了 percentiles 选项 (GH#4067) Zhenqing Li
添加类似于 Array.blocks 的 DataFrame.partitions 访问器 (GH#4066) Matthew Rocklin
核心¶
通过调度器的关键词传递获取函数和客户端 (GH#4062) Matthew Rocklin
文档¶
修复hpc示例中的拼写错误。(kwarg中缺少`=`)。(GH#4068) Matthias Bussonier
广泛的校对:(GH#4065),(GH#4064),(GH#4063) Miguel Farrajota
0.19.3 / 2018-10-05¶
数组¶
使 da.RandomState 可扩展到其他模块 (GH#4041) Matthew Rocklin
为 cupy 添加基础架构 (GH#4019) Matthew Rocklin
避免使用 asarray 并为 from_array(getitem) 锁定参数 (GH#4044) Matthew Rocklin
将 corrcoef 中的本地导入移至全局导入 (GH#4030) John A Kirkham
将本地 indices 导入移至全局导入 (GH#4029) John A Kirkham
修复 Dask Array 的 fromfunction 关于 dtype 和 kwargs 的问题 (GH#4028) John A Kirkham
不要在重叠的 GH#3964 中使用 trim_internal 的虚拟扩展 Mark Harfouche
添加 unravel_index (GH#3958) John A Kirkham
包¶
在 Bag.frequencies 中排序结果 (GH#4033) Matthew Rocklin
在 groupby 中添加对 npartitions=1 边缘情况的支持 (GH#4050) James Bourbeau
为人们添加新的随机数据集 (GH#4018) Matthew Rocklin
改进小文件上 bag.read_text 的性能 (GH#4013) Eric Wolak
添加 bag.read_avro (GH#4000) (GH#4007) Martin Durant
数据框¶
为
dask.dataframe.from_dask_array()
添加了index
参数,用于从具有给定索引的 dask 数组创建 dask DataFrame。(GH#3991) Tom Augspurger改进 dask 数据帧的子类化 (GH#4015) Matthew Rocklin
为读取多个parquet文件而不进行预扫描创建路径(GH#3978) Martin Durant
在 dd.from_dask_array 中添加索引 (GH#3991) Tom Augspurger
使 skiprows 接受列表 (GH#3975) Julia Signell
在 fastparquet 读取中对不存在的列尽早失败 (GH#3989) Martin Durant
核心¶
在 groupby 中添加对 npartitions=1 边缘情况的支持 (GH#4050) James Bourbeau
在 map_blocks/partitions 中自动使用 dask.delayed 包装大参数 (GH#4002) Matthew Rocklin
使多进程上下文可配置 (GH#3763) Itamar Turner-Trauring
文档¶
广泛的校对工作 (GH#4049), (GH#4034), (GH#4031), (GH#4020), (GH#4021), (GH#4022), (GH#4023), (GH#4016), (GH#4017), (GH#4010), (GH#3997), (GH#3996), Miguel Farrajota
更新洗牌方法选择文档 (GH#4048) James Bourbeau
移除 docs/source/examples,指向 examples.dask.org (GH#4014) Matthew Rocklin
将readthedocs链接替换为dask.org (GH#4008) Matthew Rocklin
更新 DataFrame.to_hdf 文档字符串以包含返回值 (GH#3992) James Bourbeau
0.19.2 / 2018-09-17¶
数组¶
apply_gufunc
实现了函数输出 dtypes 的自动推断 (GH#3936) Markus Gonser修复数组直方图范围错误当数组包含nans (GH#3980) James Bourbeau
from_array: 添加 @martindurant 对数组哈希处理方式的解释。(GH#3965) Mark Harfouche
支持坐标梯度 (GH#3949) Keisuke Fujii
核心¶
修复在 Python 2.7 中使用 has_keyword 和 partial 的问题 (GH#3966) Mark Harfouche
将 pyarrow 设置为 HDFS 的默认值 (GH#3957) Matthew Rocklin
文档¶
使用 dask_sphinx_theme (GH#3963) Matthew Rocklin
在主页 Matthew Rocklin 的 Binder 链接中使用 JupyterLab
文档:修复了Sphinx语法 (GH#3960) Tom Augspurger
0.19.1 / 2018-09-06¶
数组¶
如果结果没有 dtype,则不强制执行 dtype (GH#3928) Matthew Rocklin
修复 NumPy issubtype 弃用警告 (GH#3939) Bruce Merry
修复参数缩减令牌以使其在不同参数下唯一 (GH#3955) Tobias de Jong
Linalg.norm ndim 沿轴部分修复 (GH#3933) Tobias de Jong
数据框¶
确定性 DataFrame.set_index (GH#3867) George Sakkis
修复在处理过滤器时 read_parquet 中的除法问题 #3831 #3930 (GH#3923) (GH#3931) @andrethrill
修复 categorical.as_known 中的返回类型 (GH#3888) Sriharsha Hatwar
修复 DataFrame.assign 以支持可调用对象 (GH#3919) Tom Augspurger
在重新分区中包含无宽度的分区 (GH#3941) Matthew Rocklin
不要在数据框洗牌中限制 stage/k 的 dtype (GH#3942) Matthew Rocklin
文档¶
在主登录页添加“立即试用”按钮 (GH#3924) Matthew Rocklin
0.19.0 / 2018-08-29¶
数组¶
支持梯度中的坐标 (GH#3949) Keisuke Fujii
修复 argtopk split_every 错误 (GH#3810) crusaderky
确保 dask.array.isnull() 的计算结果始终为 numpy 数组 (GH#3825) Stephan Hoyer
在 dask 数组中支持 scipy.sparse 的连接 (GH#3836) Matthew Rocklin
修复32位系统上的argtopk。(GH#3823) Elliott Sales de Andrade
在 rechunk 中规范化键 (GH#3820) Matthew Rocklin
允许 dask.array 的形状为 numpy 数组 (GH#3844) Mark Harfouche
修复numpy元组索引的弃用警告 (GH#3851) Tobias de Jong
将 ghost 模块重命名为 overlap (GH#3830) Robert Sare
确保复制保留掩码数组 (GH#3852) Tobias de Jong
DataFrame¶
在
dask.dataframe.get_dummies()
中添加了dtype
和sparse
关键字 (GH#3792) Tom Augspurger添加了
dask.dataframe.to_dask_array()
用于将 Dask Series 或 DataFrame 转换为 Dask Array,可能带有已知的块大小 (GH#3884) Tom Augspurger更改了
dask.array.asarray()
对于 dask dataframe 和 series 输入的行为。以前,在创建具有已知块大小的 dask 数组之前,series 会被急切地转换为内存中的 NumPy 数组。这导致了意料之外的高内存使用。现在,不会创建中间的 NumPy 数组,而是返回一个块大小未知的 Dask 数组 (GH#3884) Tom AugspurgerDataFrame.iloc (GH#3805) Tom Augspurger
在读取多个路径时,展开通配符。(GH#3828) Irina Truong
在重采样后添加索引列名称 (GH#3833) Eric Bonfadini
将(延迟)形状属性添加到数据框和系列 (GH#3212) Henrique Ribeiro
为诊断重命名 to_csv 键 (GH#3890) Matthew Rocklin
匹配 pandas 的 concat 排序警告 (GH#3897) Tom Augspurger
在 read_csv 中包含文件名 (GH#3908) Julia Signell
核心¶
在缺少常见依赖项时导入时提供更好的错误消息 (GH#3771) Danilo Horta
添加 DASK_ROOT_CONFIG 环境变量 (GH#3849) Joe Hamman
修复 Python 3.7.0 中的 collections.abc 弃用警告 (GH#3876) Jan Margeta
允许在可视化测试中对 dot jpeg 进行 xfail 处理 (GH#3896) Matthew Rocklin
将 Python 3.7 添加到 travis.yml (GH#3894) Matthew Rocklin
在 dask.config 中添加 expand_environment_variables (GH#3893) Joe Hamman
文档¶
修复诊断导入语句中的拼写错误 (GH#3826) John Mrziglod
修复了着陆页 index.html 中的小拼写错误 (GH#3746) Christoph Moehl
更新 delayed-custom.rst (GH#3850) Anderson Banihirwe
文档:澄清延迟的文档字符串 (GH#3709) Scott Sievert
将 dask 数组 normalize_chunks 添加到文档中 (GH#3878) Daniel Rothenberg
文档:修复指向 snakeviz 的链接 (GH#3900) Hans Moritz Günther
0.18.2 / 2018-07-23¶
数组¶
重新实现了
argtopk
以释放 GIL (GH#3610) crusaderky在
map_overlap
中不要在非重叠维度上重叠 (GH#3653) Matthew Rocklin修复
linalg.tsqr
以适应不确定长度的维度 (GH#3662) Jeremy Chen将不均匀的整数数组切片拆分为单独的块 (GH#3648) Matthew Rocklin
将自动块对齐到提供的块,而不是形状 (GH#3679) Matthew Rocklin
为 linspace 添加了 endpoint 和 retstep 支持 (GH#3675) James Bourbeau
实现
.blocks
访问器 (GH#3689) Matthew Rocklin向
map_blocks
函数添加block_info
关键字 (GH#3686) Matthew Rocklin按 dask 整数数组切片 (GH#3407) crusaderky
在
arange
中支持dtype
(GH#3722) crusaderky修复
argtopk
在不等块上的问题 (GH#3720) crusaderky在
da.choice
中当replace=False
时引发错误 (GH#3765) James Bourbeau在
Array.__setitem__
中更新块 (GH#3767) Itamar Turner-Trauring添加一个
chunksize
便捷属性 (GH#3777) Jacob Tomlinson确保
to_zarr
在return_stored
为True
时返回一个 Dask 数组 (GH#3786) John A Kirkham
包¶
在
to_textfiles
中添加last_endline
可选参数 (GH#3745) George Sakkis
数据框¶
为滚动对象添加聚合函数 (GH#3772) Gerome Pistre
正确地标记累积的 groupby 聚合 (GH#3799) Cloves Almeida
延迟¶
将
@
运算符添加到延迟对象中 (GH#3691) Mark Harfouche将延迟的最佳实践添加到文档中 (GH#3737) Matthew Rocklin
核心¶
修复额外的进度条 (GH#3669) Mike Neish
如果任务有一个依赖项,则允许将其重新放回排序堆栈 (GH#3652) Matthew Rocklin
在排序时,优先选择依赖项数量较少的末端任务(GH#3588) Tom Augspurger
在顶级模块中添加
assert_eq
(GH#3726) Matthew Rocklin测试 dask 集合可以持有
scipy.sparse
数组 (GH#3738) Matthew Rocklin修复 lz4 解压缩函数的设置 (GH#3782) Elliott Sales de Andrade
添加数据集模块 (GH#3780) Matthew Rocklin
0.18.1 / 2018-06-22¶
数组¶
from_array
现在支持标量类型和嵌套的列表/元组作为输入,就像所有 numpy 函数一样;当输入是普通的 ndarray 时,它还会生成一个更简单的图(GH#3568)`crusaderky`_修复由于 cumsum 数据类型错误导致的大数组切片问题 (GH#3620) Marco Rossi
添加 Dask 数组的 pad 实现 (GH#3578) John A Kirkham
修复数组随机API示例 (GH#3625) James Bourbeau
将平均函数添加到 dask 数组 (GH#3640) James Bourbeau
使用轴对 ghost_internal 进行分词 (GH#3643) Matthew Rocklin
为 Dask 数组添加外部功能 (GH#3658) John A Kirkham
DataFrame¶
添加 Index.to_series 方法 (GH#3613) Henrique Ribeiro
修复 pyarrow-parquet 中缺失的分区列 (GH#3636) Martin Durant
核心¶
对CI的小调整 (GH#3629) crusaderky
添加回 dask.utils.effective_get (GH#3642) Matthew Rocklin
在 unpack_collections 中用唯一键替换 ‘collections’ 键 (GH#3632) Yu Feng
避免在 dask.config.set 中使用 deepcopy (GH#3649) Matthew Rocklin
0.18.0 / 2018-06-14¶
数组¶
为 Zarr 格式数据集和数组添加 to/from_zarr 方法 (GH#3460) Martin Durant
实验性添加广义ufunc支持,
apply_gufunc
,gufunc
,和``as_gufunc`` (GH#3109) (GH#3526) (GH#3539) Markus Gonser避免不必要的重新分块任务 (GH#3529) Matthew Rocklin
在运行时计算fft的dtypes (GH#3511) Matthew Rocklin
为所有 da.store 操作生成 UUID (GH#3540) Martin Durant
Dask的SVD的正确内部维度 (GH#3517) John A Kirkham
BUG: 在数组的 vindex 中,不要为身份切片引发 IndexError (GH#3559) Scott Sievert
添加了 isneginf 和 isposinf (GH#3581) John A Kirkham
删除 Dask Array 的 learn 模块 (GH#3580) John A Kirkham
添加了 sfqr(短而胖)作为 tsqr 的对应物… (GH#3575) Jeremy Chen
在 dask.array.rechunk 中允许 0 宽度的块 (GH#3591) Marc Pfister
在公共API中记录Dask数组的`nan_to_num` (GH#3599) John A Kirkham
显示块示例 (GH#3601) John A Kirkham
在 map_blocks 中将 token= 关键字替换为 name= (GH#3597) Matthew Rocklin
在 to_zarr 中禁用锁定(在分布式环境中使用 to_zarr 时需要)(GH#3607) John A Kirkham
在 to_zarr/from_zarr 中支持 Zarr 数组 (GH#3561) John A Kirkham
在 array/linalg/tsqr 中添加了递归,以更好地管理单核瓶颈 (GH#3586) Jeremy Chan (GH#3396) crusaderky
数据框¶
添加到/read_json (GH#3494) Martin Durant
为
DataFrame.rename
方法的未支持参数添加index
(GH#3522) James Bourbeau添加了对使用
numpy.ndarray
、pandas.Series
和pandas.Index
对象对 Dask DataFrame 列进行子集化的支持 (GH#3536) James Bourbeau如果元列与数据框不匹配,则引发错误 (GH#3485) Christopher Ren
为 DataFrame.rename 添加对不支持参数的索引 (GH#3522) James Bourbeau
添加了对使用 pandas Index/Series 和 numpy ndarrays 对 DataFrame 进行子集化的支持 (GH#3536) James Bourbeau
数据框样本方法文档字符串修复 (GH#3566) James Bourbeau
添加 n 到示例方法 (GH#3606) James Bourbeau
添加 fastparquet ParquetFile 对象支持 (GH#3573) @andrethrill
包¶
将 bag.groupby 中的 method= 关键字重命名为 shuffle= (GH#3470) Matthew Rocklin
核心¶
将 get= 关键字替换为 scheduler= 关键字 (GH#3448) Matthew Rocklin
添加集中化的 dask.config 模块以处理所有 Dask 子项目的配置 (GH#3432) (GH#3513) (GH#3520) Matthew Rocklin
读取整个文件修复,无论HTTP的头部如何 (GH#3496) Martin Durant
在调试文档中添加同步调度器语法 (GH#3509) James Bourbeau
用 dask.config.set 替换 dask.set_options (GH#3502) Matthew Rocklin
更新 sphinx readthedocs 主题 (GH#3516) Matthew Rocklin
为 normalize_chunks 引入“auto”值 (GH#3507) Matthew Rocklin
在配置中修复 env=None 的检查 (GH#3562) Simon Perkins
更新 sizeof 定义 (GH#3582) Matthew Rocklin
从 travis-ci 中移除 –verbose 标志 (GH#3477) Matthew Rocklin
从随机数组键中移除 “da.random” (GH#3604) Matthew Rocklin
0.17.5 / 2018-05-16¶
数组¶
修复字典中chunksize为-1时的``rechunk`` (GH#3469) Stephan Hoyer
einsum
现在接受split_every
参数 (GH#3471) crusaderky
DataFrame¶
与 pandas 0.23.0 的兼容性 (GH#3499) Tom Augspurger
0.17.4 / 2018-05-03¶
数据框¶
添加对使用字符串子类索引 Dask DataFrames 的支持 (GH#3461) James Bourbeau
允许在 read_hdf 中同时使用 sorted_index 和 chunksize (GH#3463) Pierre Bartet
将文件系统传递给箭头片段读取器 (GH#3466) Martin Durant
切换到使用 dask.compat 的 string_types (GH#3462) James Bourbeau
0.17.3 / 2018-05-02¶
数组¶
为 Dask 数组添加
einsum
(GH#3412) Simon Perkins为 Dask 数组添加
piecewise
(GH#3350) John A Kirkham修复
broadcast_shapes
中nan
的处理 (GH#3356) John A Kirkham为 dask 数组添加
isin
(GH#3363)。Stephan Hoyer对 Dask 数组的
topk
进行了全面改进:更快的算法,特别是对于较大的 k 值;增加了对多轴、递归聚合的支持,并添加了一个选项以选择最小的 k 个元素。(GH#3395) crusaderkytopk
API 已从 topk(k, array) 更改为更常规的 topk(array, k)。旧版 API 仍然有效,但现已弃用。(GH#2965) crusaderkyDask Arrays 的新函数
argtopk
(GH#3396) crusaderky修复
map_overlap
中部分深度和边界的处理 (GH#3445) John A Kirkham为 Dask 数组添加
gradient
(GH#3434) John A Kirkham
DataFrame¶
在 to_hdf 中允许使用 t 作为 table 的简写以兼容 pandas (GH#3330) Jörg Dietrich
为 Dask DataFrame 添加了顶层 isna 方法 (GH#3294) Christopher Ren
修复了在
engine="pyarrow"
下read_parquet
时分区列的选择问题 (GH#3207) Uwe Korn添加了 DataFrame.squeeze 方法 (GH#3366) Christopher Ren
在
read_parquet
中添加了 infer_divisions 选项,以指定读取引擎是否应计算分区 (GH#3387) Jon Mease为 meta= 错误提供更多信息性的错误消息 (GH#3343) Matthew Rocklin
添加orc读取器 (GH#3284) Martin Durant
现在,parquet 的默认压缩总是 Snappy,与 pandas 一致 (GH#3373) Martin Durant
修复了 Dask DataFrame 和 Series 与 NumPy 标量比较中的错误 (GH#3436) James Bourbeau
从repartition文档字符串中移除过时的要求 (GH#3440) Jörg Dietrich
修复了仅选择Series时的聚合错误 (GH#3446) Jörg Dietrich
为 make_timeseries 添加默认值 (GH#3421) Matthew Rocklin
核心¶
添加 schedule= 关键字以进行计算和持久化。这取代了常见的 get= 关键字用法 (GH#3448) Matthew Rocklin
0.17.2 / 2018-03-21¶
数组¶
为 Dask 数组添加
broadcast_arrays
(GH#3217) John A Kirkham添加
bitwise_*
ufuncs (GH#3219) John A Kirkham为
squeeze
添加可选的axis
参数 (GH#3261) John A Kirkham验证 atop 的输入 (GH#3307) Matthew Rocklin
如果在连接中所有部分具有相同的dtype,则避免调用astype (GH#3301) Martin Durant
DataFrame¶
修复了由于过度截断导致的shuffle错误 (GH#3201) Matthew Rocklin
支持在使用
engine="pyarrow"
时,通过categories=[…]
在read_parquet
中指定分类列 (GH#3177) Uwe Korn添加
dd.tseries.Resampler.agg
(GH#3202) Richard Postelnik支持混合数据框和数组的操作 (GH#3230) Matthew Rocklin
在
dd.groupby._Groupby.apply
中支持额外的标量和延迟参数 (GH#3256) Gabriele Lanaro
包¶
支持对单分区包和延迟对象进行连接 (GH#3254) Matthew Rocklin
核心¶
修复了在使用意外但可哈希类型作为键时的错误 (GH#3238) Daniel Collins
修复任务排序中的错误,以便我们使用键名一致地打破平局 (GH#3271) Matthew Rocklin
当任务数量非常大时,避免按顺序排序任务(GH#3298)`Matthew Rocklin`_
0.17.1 / 2018-02-22¶
数组¶
修正了索引中的维度分块 (GH#3166, GH#3167) Simon Perkins
内联
store_chunk
调用store
的return_stored
选项 (GH#3153) John A KirkhamNumPy 1.14.1 版本中与结构化数据类型的兼容性 (GH#3187) Matthew Rocklin
DataFrame¶
修复以允许 pandas 日期时间的列分配(GH#3164) Max Epstein
核心¶
新的HTTP(S)文件系统,允许从特定URL直接加载 (GH#3160) Martin Durant
修复在无关键词情况下对部分内容进行标记化时的错误 (GH#3191) Matthew Rocklin
使用更新的 LZ4 API (GH#3157) Thrasibule
为进度条引入输出流参数 (GH#3185) Dieter Weber
0.17.0 / 2018-02-09¶
数组¶
为 nansum、nanmin 和 nanmax 添加了支持对象类型数组 (GH#3133) Keisuke Fujii
更新当使用空块调用 len 时的错误处理 (GH#3058) Xander Johnson
修复了
store
的return_stored
选项的元数据错误 (GH#3064) John A Kirkham修复
optimization.fuse_slice
中的一个错误,以正确处理第一个输入为None
的情况 (GH#3076) James Bourbeau在百分位数中支持具有未知块大小的数组 (GH#3107) Matthew Rocklin
标记化 scipy.sparse 数组和 np.matrix (GH#3060) Roman Yurchak
DataFrame¶
在 repartition(freq=…) 中支持月份时间增量 (GH#3110) Matthew Rocklin
避免在 dataframe groupby 测试中进行变异 (GH#3118) Matthew Rocklin
read_csv
、read_table
和read_parquet
接受路径的可迭代对象 (GH#3124) Jim Crist当UDF返回一个numpy数组时,从df.map_partitions调用中返回dask.arrays (GH#3147) Matthew Rocklin
在
dd.read_parquet
中更改columns
和index
的处理方式,使其更加一致,特别是在处理多索引时 (GH#3149) Jim Cristfastparquet append=True 允许创建新数据集 (GH#3097) Martin Durant
SQL查询的dtype合理化 (GH#3100) Martin Durant
核心¶
将默认任务排序更改为优先选择依赖者较少的节点,然后是下游依赖较多的节点 (GH#3056) Matthew Rocklin
添加 color= 选项到 visualize 以按任务顺序着色 (GH#3057) (GH#3122) Matthew Rocklin
移除由于维护成本而导致的短路hdfs读取处理。可能会以更健壮的方式在以后重新添加 (GH#3079) Jim Crist
将
dask.optimize
模块重命名为dask.optimization
(GH#3071) Jim Crist更改任务排序以进行完整遍历 (GH#3066) Matthew Rocklin
在所有
to_delayed
方法中添加了一个optimize_graph
关键字,以允许控制转换时是否进行优化。(GH#3126) Jim Crist
0.16.1 / 2018-01-09¶
数组¶
修复
percentile
中标量百分位值的处理 (GH#3021) James Bourbeau防止
bool()
强制转换调用计算 (GH#2958) Albert DeFusco添加
matmul
(GH#2904) John A Kirkham支持
matmul
的 N-D 数组 (GH#2909) John A Kirkham添加
vdot
(GH#2910) John A Kirkhambroadcast_to
的显式chunks
参数 (GH#2943) Stephan Hoyer添加
meshgrid
(GH#2938) John A Kirkham 和 (GH#3001) Markus Gonser在
fftshift
/ifftshift
中保留单例块 (GH#2733) John A Kirkham修复
vindex
中负索引的处理,并为越界索引引发错误 (GH#2967) Stephan Hoyer添加
flip
,flipud
,fliplr
(GH#2954) John A Kirkham添加
float_power
ufunc (GH#2962) (GH#2969) John A Kirkham即将发布的 NumPy 1.14 版本中对结构化数组的更改的兼容性 (GH#2964) Tom Augspurger
添加
block
(GH#2650) John A Kirkham为
store
添加return_stored
选项以链接存储的结果 (GH#2980) John A Kirkham
DataFrame¶
修复了累积聚合中的命名错误 (GH#3037) Martijn Arts
修复了当
names
被指定但header
未设置为None
时dd.read_csv
的问题 (GH#2976) Martijn Arts修复了
dd.read_csv
,使得在dtype
中传递CategoricalDtype
实例将导致已知的分类 (GH#2997) Tom Augspurger防止
bool()
强制转换调用计算 (GH#2958) Albert DeFuscoDataFrame.read_sql()
(GH#2928) 读取空数据库表返回一个空的dask数据框 Apostolos Vlachopoulos读取由 PyArrow 0.8.0 写入的 Parquet 文件的兼容性 (GH#2973) Tom Augspurger
在读取
dd.read_parquet
时正确处理列名 (df.columns.name) (GH#2973) Tom Augspurger修复了
dd.concat
在数据包含分类时丢失索引数据类型的问题 (GH#2932) Tom Augspurger移除了已弃用的
dd.rolling*
方法,为在下一个 pandas 版本中移除它们做准备 (GH#2995) Tom Augspurger
核心¶
改进32位兼容性 (GH#2937) Matthew Rocklin
更改任务优先级以避免向上分支 (GH#3017) Matthew Rocklin
0.16.0 / 2017-11-17¶
这是一个重大发布。它包括破坏性变更、新协议以及大量错误修复。
数组¶
添加
atleast_1d
、atleast_2d
和atleast_3d
(GH#2760) (GH#2765) John A Kirkham添加
allclose
(GH#2771) 由 John A Kirkham 完成从 Dask 数组 API 文档中移除
random.different_seeds
(GH#2772) John A Kirkham弃用
vnorm
,改为使用dask.array.linalg.norm
(GH#2773) John A Kirkham重新实现
unique
使其变得懒惰 (GH#2775) John A Kirkham支持 Dask 数组的 0 长度维度广播 (GH#2784) John A Kirkham
将
asarray
和asanyarray
添加到 Dask Array API 文档中 (GH#2787) James Bourbeau支持
unique
的return_*
参数 (GH#2779) John A Kirkham简化
_unique_internal
(GH#2850) (GH#2855) John A Kirkham
DataFrame¶
修复了
DataFrame.quantile
和Series.quantile
在存在缺失值时返回nan
的问题 (GH#2791) Tom Augspurger修复了当
q
是标量时DataFrame.quantile
丢失结果.name
的问题 (GH#2791) Tom Augspurger修复了
dd.concat
在沿列连接单个序列时返回dask.Dataframe
,与 pandas 的行为匹配 (GH#2800) James Munroe将
DataFrame.eval
的默认 inplace 参数固定为与 pandas >= 0.21.0 的 pandas 默认值匹配 (GH#2838) Tom Augspurger修复在调用
DataFrame.set_index
时,文本列中某个分区为空时引发的异常 (GH#2831) Jesse Vogt在调用
DataFrame.set_index
时,不要在空数据框上引发异常 (GH#2827) Jesse Vogt修复了在用
Series
值填充时Dataframe.fillna
的错误 (GH#2810) Tom Augspurger在
dd.to_parquet
中弃用旧的参数顺序,以更好地符合将数据框放在首位的惯例 (GH#2867) Jim Crist针对 Pandas 发布候选版本进行测试 (GH#2814) Tom Augspurger
在聚合中移除不必要的 map_partitions (GH#2712) Christopher Prohm
在解析日期时优雅地处理错误(GH#2863)`Jim Crist`_
在
dd.to_parquet
中使用pyarrow
支持读写 hdfs (GH#2894, GH#2881) Jim Crist
核心¶
允许将元组作为 sharedict 键 (GH#2763) Matthew Rocklin
在 dask.distributed 任务中调用 compute 默认使用分布式调度器 (GH#2762) Matthew Rocklin
当使用 gcs:// 协议时自动导入 gcsfs (GH#2776) Matthew Rocklin
完全移除 dask.async 模块,改用 dask.local 代替 (GH#2828) Thomas Caswell
与 bokeh 0.12.10 的兼容性 (GH#2844) Tom Augspurger
在 XArray 集成期间更新 Dask 集合接口 (GH#2847) Matthew Rocklin
修复文档中bokeh仪表盘的端口 (GH#2889) Ian Hopkinson
0.15.2 / 2017-08-25¶
数组¶
DataFrame¶
0.15.1 / 2017-07-08¶
0.14.2 / 2017-05-03¶
数组¶
DataFrame¶
0.13.0 / 2017-01-02¶
数组¶
DataFrame¶
添加
map_overlap
用于自定义滚动操作 (GH#1769)添加
shift
(GH#1773)添加 Parquet 支持 (GH#1782) (GH#1792) (GH#1810), (GH#1843), (GH#1859), (GH#1863)
添加缺失的方法 combine, abs, autocorr, sem, nsmallest, first, last, prod, (GH#1787)
具有多个输出分区的归约操作(例如 drop_duplicates)(GH#1808),(GH#1823) (GH#1828)
为 DataFrames 添加 delitem 和 copy 方法,增强突变支持 (GH#1858)
延迟¶
delayed(nout=0)
和delayed(nout=1)
的行为已更改:delayed(nout=1)
不再默认out=None
,并且delayed(nout=0)
也已启用。即,返回长度为1或0的元组的函数可以被正确处理。这对于包装具有可变数量输出的函数特别方便。例如,一个简单的例子:delayed(lambda *args: args, nout=len(vals))(*vals)
0.12.0 / 2016-11-03¶
DataFrame¶
当传递给
dataframe.map_partitions
的函数返回标量时返回一个序列 (GH#1515)修复序列的类型大小推断 (GH#1513)
dataframe.DataFrame.categorize
不再在categories
中包含缺失值。这是为了与 pandas 的更改 (GH#1565) 兼容。修复
dataframe.read_csv
中头部解析器错误,当某些行有引号时 (GH#1495)添加
dataframe.reduction
和series.reduction
方法,以对数据框和序列应用通用的行级归约 (GH#1483)dataframe.read_hdf
现在支持读取Series
(GH#1564)支持 Pandas 0.19.0 (GH#1540)
实现
select_dtypes
(GH#1556)字符串访问器使用索引 (GH#1561)
为 dask.dataframe 添加管道方法 (GH#1567)
添加
indicator
关键字到合并 (GH#1575)在
read_hdf
中支持 Series (GH#1575)支持包含缺失值的分类 (GH#1578)
支持像
df.x += 1
这样的就地操作符 (GH#1585)Str 访问器传递 args 和 kwargs (GH#1621)
改进了单机多进程调度器的 groupby 支持 (GH#1625)
树形缩减 (GH#1663)
数据透视表 (GH#1665)
添加 clip (GH#1667)、align (GH#1668)、combine_first (GH#1725) 和 any/all (GH#1724)
改进了 dask-pandas 合并中的分区处理 (GH#1666)
添加
groupby.aggregate
方法 (GH#1678)添加
dd.read_table
函数 (GH#1682)在
loc
中支持二维索引 (GH#1726)扩展
resample
以包含 DataFrame (GH#1741)在 dask.dataframe 对象上支持 dask.array ufuncs (GH#1669)
0.11.0 / 2016-08-24¶
主要观点¶
现在,DataFrames 在任何地方都强制要求了解完整的元数据(列、数据类型)。以前,当函数丢失数据类型信息(如 apply
)时,我们会处于一种模糊状态。现在,所有数据框始终知道它们的数据类型,并且在无法推断时会引发错误,要求提供信息(通常它们可以推断)。一些内部属性,如 _pd
和 _pd_nonempty
已被移动。
分布式调度器的内部结构已重构,以在显式状态之间转换任务。这提高了弹性、调度推理、插件操作和日志记录。同时,这也使得新来者更容易理解调度器代码。
重大变更¶
distributed.s3
和distributed.hdfs
命名空间已不存在。请改用read_text('s3://...'
等常规方法中的协议。Dask.array.reshape
现在在某些情况下会报错,而以前它会创建大量任务。
0.10.2 / 2016-07-27¶
更多的 DataFrame 洗牌操作现在可以在分布式环境中工作,包括设置索引、哈希连接、排序连接和分组操作。
当在Python的优化-OO模式下运行时,Dask通过了完整的测试套件。
在某些高度并发的情境下,尤其是在Windows系统上,磁盘洗牌操作被发现会产生错误的结果。这一问题已通过修复partd库得到了解决。
修复了在大数据通信下发生的文件描述符增长问题
在
--bokeh-whitelist
选项中支持端口,以便在复杂的网络设置下更好地路由web界面消息对工作节点故障的恢复能力有所改进(尽管其他已知故障仍然存在)
你现在可以在任何工作节点上启动一个 IPython 内核,以改进调试和分析
对
dask.dataframe.read_hdf
的改进,特别是在从多个文件读取和文档方面
0.10.0 / 2016-06-13¶
重大变化¶
此版本放弃了对 Python 2.6 的支持
Conda 包是从 conda-forge 构建并提供的
dask.distributed
的可执行文件已从 dfoo 重命名为 dask-foo。例如,dscheduler 已重命名为 dask-scheduler。Bag 和 DataFrame 都包含一个初步的分布式洗牌。
包¶
为分布式分组添加基于任务的洗牌
添加累积以进行累积归约
DataFrame¶
添加一个适合分布式连接、分组应用和设置索引操作的任务型洗牌。单机洗牌保持不变(并且效率更高。)
添加对新的 Pandas rolling API 的支持,提升分布式系统上的通信性能。
添加
groupby.std/var
在
read_csv
中传递 S3/HDFS 存储选项改进分类分区
为数据框添加 eval、info、isnull、notnull 功能
分布式¶
将可执行文件如 dscheduler 重命名为 dask-scheduler
在多快速任务情况下提高调度器性能(对洗牌操作很重要)
改进工作窃取机制,使其能够感知预期函数运行时间和数据大小。这大大增加了可以在分布式调度器上高效运行的算法的广度,而无需用户具备显著的专业知识。
在流式队列中支持最大缓冲区大小
在使用 Bokeh 诊断网页界面时改进 Windows 支持
支持在协议中压缩非常大的字节字符串
支持在 Joblib 接口中取消已提交的 futures 的清理操作
其他¶
所有与dask相关的项目(dask、distributed、s3fs、hdfs、partd)现在都在conda-forge上构建conda包。
在 s3fs 中更改凭证处理,仅在明确给出密钥/密钥时传递委托凭证。现在默认依赖于托管环境。可以通过明确提供关键字参数来更改回原来的设置。如果需要匿名模式,必须明确声明。
0.9.0 / 2016-05-11¶
API 变更¶
dask.do
和dask.value
已重命名为dask.delayed
dask.bag.from_filenames
已重命名为dask.bag.read_text
所有S3/HDFS数据摄取功能,如
db.from_s3
或distributed.s3.read_csv
,都已移至普通的read_text
、read_csv
函数中,这些函数现在支持协议,如dd.read_csv('s3://bucket/keys*.csv')
数组¶
添加对
scipy.LinearOperator
的支持改进对磁盘数据结构的选配锁定
更改 rechunk 以暴露中间块
包¶
将
from_filename
重命名为read_text
移除
from_s3
以支持read_text('s3://...')
DataFrame¶
修复了相关性和协方差的数值稳定性问题
允许无哈希
from_pandas
以实现快速往返于 pandas 对象通常重新设计了
read_csv
以更符合 Pandas 的行为支持对已排序列的快速
set_index
操作
延迟¶
将
do/value
重命名为delayed
将
to/from_imperative
重命名为to/from_delayed
分布式¶
将 s3 和 hdfs 功能移入 dask 仓库
自适应地为非常快的任务超额订阅工作者
改进 PyPy 支持
改进不平衡工作者的任务窃取
使用树散点图高效分散数据
其他¶
添加 lzma/xz 压缩支持
当尝试分割不可分割的压缩类型(如gzip或bz2)时,发出警告。
改进单机洗牌操作的哈希算法
为开始状态添加新的回调方法
性能调优概述
0.8.1 / 2016-03-11¶
数组¶
修复了可能导致周期性结果不正确的范围切片错误。
改进了
arg
归约(如argmin
、argmax
等)的支持和弹性。
包¶
添加
zip
函数
DataFrame¶
添加
corr
和cov
函数添加
melt
函数修复了io到bcolz和hdf5的错误
0.8.0 / 2016-02-20¶
数组¶
将默认数组归约拆分从32更改为4
线性代数,
tril
,triu
,LU
,inv
,cholesky
,solve
,solve_triangular
,eye
,lstsq
,diag
,corrcoef
.
包¶
添加树形简化
添加范围函数
删除
from_hdfs
函数(现在 hdfs3 和 distributed 项目中已有更好的功能)
DataFrame¶
重构
dask.dataframe
以包含一个完全空的 pandas dataframe 作为元数据。删除 Series 上的.columns
属性添加 Series 分类访问器,series.nunique,删除 Series 的
.columns
属性。read_csv
修复(多列 parse_dates、整数列名等)内部更改以改进图形序列化
其他¶
文档更新
为所有集合添加 from_imperative 和 to_imperative 函数
对分析器图表的美观性更改
将 dask 项目移至新的 dask 组织
0.7.6 / 2016-01-05¶
数组¶
提高线程安全性
树的归约
添加
view
、compress
、hstack
、dstack
、vstack
方法map_blocks
现在可以移除和添加维度
DataFrame¶
提高线程安全性
扩展采样以包括替换选项
命令式¶
移除了融合结果的优化过程。
核心¶
移除了
dask.distributed
改进了阻塞文件读取的性能
序列化改进
测试 Python 3.5
0.7.4 / 2015-10-23¶
这主要是一个修复错误的版本。一些值得注意的变化:
修复与numpy 1.10和pandas 0.17发布相关的小错误
修复了一个随机数生成中的错误,该错误由于生日悖论会导致重复块。
默认情况下在
dask.dataframe.read_hdf
中使用锁以避免并发问题将
dask.get
默认指向dask.async.get_sync
允许可视化函数接受像 rankdir=’LR’ 这样的通用 graphviz 图选项
将 reshape 和 ravel 添加到
dask.array
支持从
dask.imperative
对象创建dask.arrays
弃用¶
此版本还包括对 dask.distributed
的弃用警告,该功能将在下一个版本中移除。
dask 在分布式计算方面的未来发展正在这里进行:https://distributed.dask.org 。该项目非常欢迎来自社区的总体反馈。
0.7.3 / 2015-09-25¶
诊断¶
dask.diagnostics
模块中添加了一个用于分析内存和CPU使用情况的工具。
DataFrame¶
此版本改进了 pandas API 的覆盖范围。其中包括 nunique
、nlargest
、quantile
等功能。修复了读取非 ASCII csv 文件时的编码问题。改进了重采样的性能和修复了相关错误。使用 globbing 更灵活地读取 HDF 文件。以及更多其他改进。修复了 dask.imperative
和 dask.bag
中的各种错误。
0.7.0 / 2015-08-15¶
DataFrame¶
此版本包含重要的错误修复,并与 Pandas API 保持一致。这一成果既来自于使用,也来自于 Pandas 核心开发者的近期参与。
新操作:查询、滚动操作、删除
改进的操作:分位数、对整个数据框的算术运算、删除缺失值、构造逻辑、合并/连接、逐元素操作、分组聚合
包¶
修复了折叠功能中的一个错误,该错误在默认参数为空时出现。
数组¶
新操作:da.fft 模块,da.image.imread
基础设施¶
数组和数据帧集合创建具有确定性键的图表。这些键通常较长(哈希字符串),但在计算之间应保持一致。这在未来将有助于缓存。
所有集合(数组、包、数据框)都继承自公共子类
0.6.1 / 2015-07-23¶
分布式¶
改进了(尽管还不够充分)``dask.distributed`` 在工作者死亡时的恢复能力
DataFrame¶
改进的写作到各种格式,包括 to_hdf、to_castra 和 to_csv
改进了从 dask 数组和包创建 dask DataFrame 的过程
改进了对分类数据的支持以及各种其他方法
数组¶
各种错误修复
直方图函数
调度¶
在并行工作负载中添加了任务的打破平局排序,以更好地处理和清除中间结果
其他¶
添加了 dask.do 函数,用于使用普通 Python 代码显式构建图
将 pydot 替换为 graphviz 库以支持 Python3 的图形打印
还有一个 gitter 聊天室和一个 stackoverflow 标签