Ray Data: 可扩展的机器学习数据集#

Ray Data 是一个用于 ML 工作负载的可扩展数据处理库。它提供了灵活且高性能的 API,用于扩展 离线批量推理ML 训练的数据预处理和摄取。Ray Data 使用 流式执行 来高效处理大型数据集。

安装 Ray Data#

要安装 Ray Data,请运行:

$ pip install -U 'ray[data]'

要了解更多关于安装 Ray 及其库的信息,请参阅 安装 Ray

了解更多#

Ray 数据概述

获取 Ray Data 的概述,了解它支持的工作负载,以及它与替代方案的比较。

快速开始

理解Ray Data背后的关键概念。学习什么是数据集以及它们是如何使用的。

用户指南

学习如何使用 Ray Data,从基本用法到端到端指南。

示例

查找使用 Ray Data 的简单和扩展示例。

API

获取更多关于 Ray Data API 的深入信息。

Ray 博客

从Ray团队获取最新的工程更新,以及公司如何使用Ray Data。