Ray Train 用户指南# 数据加载和预处理 快速入门 从 PyTorch 数据开始 分割数据集 随机洗牌 启用可重复性 预处理结构化数据 性能提示 配置规模和GPU 增加工作者的数量 使用GPU 设置每个工作者的资源 培训资源 配置持久存储 云存储(AWS S3,Google Cloud Storage) 共享文件系统(NFS、HDFS) 本地存储 自定义存储 Ray Train 输出概述 高级配置 监控和日志指标 如何从不同的工作者获取并汇总结果? 保存和加载检查点 在训练过程中保存检查点 配置检查点 训练后使用检查点 Restore training state from a checkpoint 实验跟踪 入门指南 示例 常见错误 检查训练结果 查看指标 检索检查点 访问存储位置 查看错误 在持久存储中查找结果 处理失败和节点抢占 自动从训练工作器故障中恢复 恢复一个 Ray Train 实验 可重复性 超参数优化 关键概念 基本用法 如何配置一个调谐器? 搜索空间配置 训练 - 调优陷阱 高级调优