Ray Train: 可扩展模型训练#
Ray Train 是一个用于分布式训练和微调的可扩展机器学习库。
Ray Train 允许你将模型训练代码从单台机器扩展到云中的多台机器集群,并抽象了分布式计算的复杂性。无论你拥有大型模型还是大型数据集,Ray Train 都是分布式训练的最简单解决方案。
Ray Train 提供了对许多框架的支持:
PyTorch 生态系统 |
更多框架 |
---|---|
PyTorch |
TensorFlow |
PyTorch Lightning |
Keras |
Hugging Face Transformers |
Horovod |
Hugging Face 加速 |
XGBoost |
DeepSpeed |
LightGBM |
安装 Ray Train#
要安装 Ray Train,请运行:
$ pip install -U "ray[train]"
要了解更多关于安装 Ray 及其库的信息,请参阅 安装 Ray。
开始#
概述
理解使用 Ray Train 进行分布式训练的关键概念。
PyTorch
使用 Ray Train 和 PyTorch 开始分布式模型训练。
PyTorch Lightning
开始使用 Ray Train 和 Lightning 进行分布式模型训练。
Hugging Face Transformers
开始使用 Ray Train 和 Transformers 进行分布式模型训练。
了解更多#
更多框架
没有看到你的框架?请查看这些指南。
用户指南
获取使用 Ray Train 进行常见训练任务的操作指南。
示例
浏览不同用例的端到端代码示例。
API
请参阅 API 参考以获取 Ray Train API 的完整描述。