来自其他数据图书馆用户的API指南#

Ray Data 是一个用于机器学习的数据加载和预处理库。它与其他ETL数据处理库有一些相似之处,但也有自己的重点。本指南为来自这些数据处理库的用户提供了API映射,以便您可以快速将您已知的内容映射到Ray Data API。

备注

  • 这旨在映射执行类似但不一定相同的操作的API。选择API参考以获取确切的语义和用法。

  • 此列表可能并不详尽:Ray Data 不是一个传统的 ETL 数据处理库,因此并非所有数据处理 API 都能映射到数据集。此外,此列表侧重于常见的 API 或那些不太明显能看到联系的 API。

对于Pandas用户#

Pandas DataFrame 对比 Ray Data APIs#

Pandas DataFrame API

Ray 数据 API

df.head()

ds.show()ds.take(),或 ds.take_batch()

df.dtypes

ds.schema()

len(df) 或 df.shape[0]

ds.count()

df.truncate()

ds.limit()

df.iterrows()

ds.iter_rows()

df.drop()

ds.drop_columns()

df.transform()

ds.map_batches()ds.map()

df.groupby()

ds.groupby()

df.groupby().apply()

ds.groupby().map_groups()

df.sample()

ds.random_sample()

df.sort_values()

ds.sort()

df.append()

ds.union()

df.aggregate()

ds.aggregate()

df.min()

ds.min()

df.max()

ds.max()

df.sum()

ds.sum()

df.mean()

ds.mean()

df.std()

ds.std()

对于 PyArrow 用户#

PyArrow 表 vs. Ray 数据 API#

PyArrow 表 API

Ray 数据 API

pa.Table.schema

ds.schema()

pa.Table.num_rows

ds.count()

pa.Table.filter()

ds.filter()

pa.Table.drop()

ds.drop_columns()

pa.Table.add_column()

ds.add_column()

pa.Table.groupby()

ds.groupby()

pa.Table.sort_by()

ds.sort()

对于 PyTorch 数据集和数据加载器的用户#

更多详情,请参阅 从 PyTorch 迁移到 Ray Data