Ray 生态系统#

本页按字母顺序列出了与 Ray 集成的库,用于分布式执行。将您自己的集成添加到此列表非常简单。只需打开一个包含几行文本的拉取请求,请参见下面的下拉菜单以获取更多信息。

添加您的集成

要添加一个集成,请在此文件中添加一个条目,使用与其他示例相同的 grid-item-card 指令。

../_images/airflow_logo_full.png
https://img.shields.io/github/stars/astronomer/astro-provider-ray?style=social)]

Apache Airflow® 是一个开源平台,使用户能够使用有向无环图 (DAG) 以编程方式创作、安排和监控工作流程。通过 Ray 提供程序,用户可以在 Airflow DAG 中无缝编排 Ray 作业。

../_images/buildflow.png
https://img.shields.io/github/stars/launchflow/buildflow?style=social)]

BuildFlow 是一个后端框架,允许你使用纯 Python 构建和管理复杂的云基础设施。通过 BuildFlow 的装饰器模式,你可以将任何函数转变为你后端系统的一个组件。

../_images/classyvision.png
https://img.shields.io/github/stars/facebookresearch/ClassyVision?style=social)]

Classy Vision 是一个新的端到端、基于 PyTorch 的框架,用于大规模训练最先进的图像和视频分类模型。该库具有模块化、灵活的设计,允许任何人使用非常简单的抽象在 PyTorch 之上训练机器学习模型。

../_images/dask.png
https://img.shields.io/github/stars/dask/dask?style=social)]

Dask 为分析提供了高级并行性,使您喜爱的工具能够在规模上实现性能。Dask 使用现有的 Python API 和数据结构,使得在 Numpy、Pandas、Scikit-learn 与其 Dask 驱动的等效工具之间切换变得容易。

../_images/flambe.png
https://img.shields.io/github/stars/asappresearch/flambe?style=social)]

Flambé 是一个机器学习实验框架,旨在加速整个研究生命周期。Flambé 的主要目标是提供一个统一的接口,用于原型模型、运行包含复杂管道的实验、实时监控这些实验、报告结果以及部署最终模型进行推理。

../_images/flowdapt.png
https://img.shields.io/github/stars/emergentmethods/flowdapt?style=social)]

Flowdapt 是一个平台,旨在帮助开发人员配置、调试、调度、触发、部署和服务大规模的自适应和反应性人工智能工作流程。

../_images/flyte.png
https://img.shields.io/github/stars/flyteorg/flyte?style=social)]

Flyte 是一个 Kubernetes 原生的工作流自动化平台,适用于大规模复杂、关键任务的数据和机器学习流程。它已经在 Lyft、Spotify、Freenome 等公司经过实战测试,并且是真正的开源项目。

../_images/horovod.png
https://img.shields.io/github/stars/horovod/horovod?style=social)]

Horovod 是一个用于 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式深度学习训练框架。Horovod 的目标是使分布式深度学习既快速又易于使用。

../_images/hugging.png
https://img.shields.io/github/stars/huggingface/transformers?style=social)]

最先进的自然语言处理技术,适用于 Pytorch 和 TensorFlow 2.0。它与 Ray 集成,用于分布式超参数调整变压器模型。

../_images/zoo.png
https://img.shields.io/github/stars/intel-analytics/analytics-zoo?style=social)]

Analytics Zoo 能够无缝地将 TensorFlow、Keras 和 PyTorch 扩展到分布式大数据(使用 Spark、Flink 和 Ray)。

../_images/nlu.png
https://img.shields.io/github/stars/JohnSnowLabs/nlu?style=social)]

350多个预训练的NLP模型、100多个词嵌入、50多个句子嵌入和50多个分类器,支持46种语言,只需一行Python代码。

../_images/ludwig.png
https://img.shields.io/github/stars/ludwig-ai/ludwig?style=social)]

Ludwig 是一个工具箱,允许用户无需编写代码即可训练和测试深度学习模型。使用 Ludwig,您可以在 Ray 上以零行代码训练深度学习模型,自动利用 Ray 上的 Dask 进行数据预处理,Ray 上的 Horovod 进行分布式训练,以及 Ray Tune 进行超参数优化。

../_images/mars.png
https://img.shields.io/github/stars/mars-project/mars?style=social)]

Mars 是一个基于张量的大规模数据计算统一框架,它扩展了 Numpy、Pandas 和 Scikit-learn。Mars 可以在单机上扩展,也可以扩展到拥有数千台机器的集群中。

../_images/modin.png
https://img.shields.io/github/stars/modin-project/modin?style=social)]

通过更改一行代码来扩展您的 pandas 工作流程。Modin 透明地分发数据和计算,因此您只需继续使用安装 Modin 之前所用的 pandas API。

../_images/prefect.png
https://img.shields.io/github/stars/PrefectHQ/prefect-ray?style=social)]

Prefect 是一个用 Python 编写的开源工作流编排平台。它允许你轻松地在 Python 中定义、跟踪和调度工作流。这个集成使得在 Ray 集群上以分布式方式运行 Prefect 工作流变得简单。

../_images/pycaret.png
https://img.shields.io/github/stars/pycaret/pycaret?style=social)]

PyCaret 是一个开源的低代码机器学习库,使用 Python 编写,旨在减少机器学习实验中从假设到洞察的周期时间。它使数据科学家能够快速高效地执行端到端实验。

../_images/intel.png
https://img.shields.io/github/stars/Intel-bigdata/oap-raydp?style=social)]

RayDP(“Ray 上的 Spark”)使您能够轻松地在 Ray 程序中使用 Spark。您可以使用 Spark 读取输入数据,使用 SQL、Spark DataFrame 或 Pandas(通过 Koalas)API 处理数据,使用 Spark MLLib 提取和转换特征,并使用 RayDP Estimator API 对预处理数据集进行分布式训练。

../_images/scikit.png
https://img.shields.io/github/stars/scikit-learn/scikit-learn?style=social)]

Scikit-learn 是一个用于 Python 编程语言的免费软件机器学习库。它具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN,并且设计为与 Python 数值和科学库 NumPy 和 SciPy 互操作。

../_images/seldon.png
https://img.shields.io/github/stars/SeldonIO/alibi?style=social)]

Alibi 是一个开源的 Python 库,旨在进行机器学习模型的检查和解释。该库的重点是提供高质量的实现,包括黑盒、白盒、局部和全局解释方法,适用于分类和回归模型。

../_images/sematic.png
https://img.shields.io/github/stars/sematic-ai/sematic?style=social)]

Sematic 是一个用 Python 编写的开源机器学习流水线工具。它使用户能够编写端到端的流水线,这些流水线可以在您的笔记本电脑和云之间无缝过渡,具有丰富的可视化、可追溯性、可重复性和可用性作为首要考虑。此集成使得在 Sematic 流水线内动态分配 Ray 集群成为可能。

../_images/spacy.png
https://img.shields.io/github/stars/explosion/spacy-ray?style=social)]

spaCy 是一个用于 Python 和 Cython 中高级自然语言处理的库。它基于最新的研究构建,并且从一开始就被设计用于实际产品中。

../_images/xgboost_logo.png
https://img.shields.io/github/stars/ray-project/xgboost_ray?style=social)]

XGBoost 是一个流行的用于分类和回归的梯度提升库。它是数据科学中最受欢迎的工具之一,也是许多顶级 Kaggle 内核的主力。

../_images/lightgbm_logo.png
https://img.shields.io/github/stars/ray-project/lightgbm_ray?style=social)]

LightGBM 是一个用于分类和回归的高性能梯度提升库。它的设计旨在实现分布式和高效。

../_images/volcano.png
https://img.shields.io/github/stars/volcano-sh/volcano?style=social)]

Volcano 是一个在 Kubernetes 上运行高性能工作负载的系统。它具备强大的批处理调度能力,这是机器学习和其它数据密集型工作负载所必需的。