Dask 安装
内容
Dask 安装¶
如何安装 Dask¶
你可以通过 conda
、 pip
或从源代码安装 Dask。
如果你使用 Anaconda 发行版 ,Dask 将会默认安装。
你也可以使用 conda install 命令来安装或升级 Dask:
conda install dask
这将安装 Dask 和 所有 常见的依赖项,包括 pandas 和 NumPy。Dask 包在默认频道和 conda-forge 上都有维护。你可以使用 -c
标志选择频道:
conda install dask -c conda-forge
可选地,您可以使用以下命令获取最小化的 Dask 安装:
conda install dask-core
这将安装运行 Dask 所需的最小依赖集,类似于(但不完全相同)``python -m pip install dask``。
要使用 pip
安装 Dask,请运行以下命令:
python -m pip install "dask[complete]" # Install everything
这将安装 Dask、分布式调度器,以及常见的依赖项,如 pandas、Numpy 等。
你也可以只安装 Dask 库,而不安装任何可选依赖项:
python -m pip install dask # Install only core parts of dask
像 dask.array
、dask.dataframe
或 dask.distributed
这样的 Dask 模块,在你分别安装 NumPy、pandas 或 Tornado 之前是不会工作的。这对用户来说不常见,但对下游库的维护者来说更常见。
我们还维护其他依赖集,用于不同的功能子集:
python -m pip install "dask[array]" # Install requirements for dask array
python -m pip install "dask[dataframe]" # Install requirements for dask dataframe
python -m pip install "dask[diagnostics]" # Install requirements for dask diagnostics
python -m pip install "dask[distributed]" # Install requirements for distributed dask
我们提供这些选项,以便使用轻量级核心 Dask 调度器的用户不需要下载集合(如 Numpy、pandas、Tornado 等)的更奇特的依赖项。
分布式部署¶
要在分布式集群上运行 Dask,您还需要安装与您的资源管理器(如 Kubernetes、SLURM、PBS、LSF、AWS、GCP、Azure 或类似技术)匹配的 Dask 集群管理器。
在 部署文档 中阅读更多关于此主题的内容
可选依赖项¶
Dask 中的特定功能可能需要额外的可选依赖项。例如,从 Amazon S3 读取数据需要 s3fs。以下列出了这些可选依赖项及其最低支持版本。
依赖 |
版本 |
描述 |
---|---|---|
|
生成Dask执行的配置文件(``dask.diagnostics``所需) |
|
|
使用缓存进行计算 |
|
|
使用 CityHash 和 FarmHash 哈希函数进行数组哈希(比 MurmurHash 快约 2 倍) |
|
|
使用 |
|
|
更快的内部迭代器、函数和字典的Cython化实现 |
|
|
||
|
使用 Dask 扩展的常见机器学习函数 |
|
|
从Apache Avro文件中存储和读取数据 |
|
|
存储和读取位于 Google Cloud Storage 中的数据 |
|
|
使用 graphviz 引擎的图形可视化 |
|
|
||
|
使用 cytoscape 引擎的图形可视化 |
|
|
将使用 graphviz 引擎制作的图形可视化写入文件 |
|
|
Jupyter笔记本中Dask对象的HTML表示(``dask.diagnostics``所需) |
|
|
透明使用 lz4 压缩算法 |
|
|
图形可视化的颜色映射支持 |
|
|
使用 |
|
|
使用 MurmurHash 哈希函数进行数组哈希(比 SHA1 快约 8 倍) |
|
|
|
|
|
|
|
|
将CPU亲和性纳入CPU计数,智能推断读取CSV文件时的块大小 |
|
|
在存储/读取 Apache ORC 或 Parquet 文件时支持 Apache Arrow 数据类型和引擎 |
|
|
在存储/读取 Avro 或 Parquet 文件时使用的 Snappy 压缩 |
|
|
存储和读取位于 Amazon S3 中的数据 |
|
|
对于 |
|
|
使用稀疏数组作为 dask 数组的后端 |
|
|
从SQL数据库写入和读取 |
|
|
工作线程回溯对象的序列化 |
|
|
从 TileDB 文件中存储和读取数据 |
|
|
使用 xxHash 哈希函数进行数组哈希(比 MurmurHash 快约 2 倍,比 CityHash 稍慢) |
|
|
从Zarr文件存储和读取数据 |