来自其他数据图书馆用户的API指南#
Ray Data 是一个用于机器学习的数据加载和预处理库。它与其他ETL数据处理库有一些相似之处,但也有自己的重点。本指南为来自这些数据处理库的用户提供了API映射,以便您可以快速将您已知的内容映射到Ray Data API。
备注
这旨在映射执行类似但不一定相同的操作的API。选择API参考以获取确切的语义和用法。
此列表可能并不详尽:Ray Data 不是一个传统的 ETL 数据处理库,因此并非所有数据处理 API 都能映射到数据集。此外,此列表侧重于常见的 API 或那些不太明显能看到联系的 API。
对于Pandas用户#
Pandas DataFrame API |
Ray 数据 API |
---|---|
df.head() |
|
df.dtypes |
|
len(df) 或 df.shape[0] |
|
df.truncate() |
|
df.iterrows() |
|
df.drop() |
|
df.transform() |
|
df.groupby() |
|
df.groupby().apply() |
|
df.sample() |
|
df.sort_values() |
|
df.append() |
|
df.aggregate() |
|
df.min() |
|
df.max() |
|
df.sum() |
|
df.mean() |
|
df.std() |
对于 PyArrow 用户#
PyArrow 表 API |
Ray 数据 API |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
对于 PyTorch 数据集和数据加载器的用户#
更多详情,请参阅 从 PyTorch 迁移到 Ray Data。