Ray Train: 可扩展模型训练#

Ray Train 是一个用于分布式训练和微调的可扩展机器学习库。

Ray Train 允许你将模型训练代码从单台机器扩展到云中的多台机器集群,并抽象了分布式计算的复杂性。无论你拥有大型模型还是大型数据集,Ray Train 都是分布式训练的最简单解决方案。

Ray Train 提供了对许多框架的支持:

PyTorch 生态系统

更多框架

PyTorch

TensorFlow

PyTorch Lightning

Keras

Hugging Face Transformers

Horovod

Hugging Face 加速

XGBoost

DeepSpeed

LightGBM

安装 Ray Train#

要安装 Ray Train,请运行:

$ pip install -U "ray[train]"

要了解更多关于安装 Ray 及其库的信息,请参阅 安装 Ray

开始#

概述

理解使用 Ray Train 进行分布式训练的关键概念。

PyTorch

使用 Ray Train 和 PyTorch 开始分布式模型训练。

PyTorch Lightning

开始使用 Ray Train 和 Lightning 进行分布式模型训练。

Hugging Face Transformers

开始使用 Ray Train 和 Transformers 进行分布式模型训练。

了解更多#

更多框架

没有看到你的框架?请查看这些指南。

用户指南

获取使用 Ray Train 进行常见训练任务的操作指南。

示例

浏览不同用例的端到端代码示例。

API

请参阅 API 参考以获取 Ray Train API 的完整描述。