ray.data.预处理器.预处理器#
- class ray.data.preprocessor.Preprocessor[源代码]#
基类:
ABC
实现了一个机器学习预处理操作。
预处理器是具有状态的对象,可以针对数据集进行拟合,并用于转换本地数据批次和分布式数据。例如,归一化预处理器可能在拟合过程中计算字段的均值和标准差,并使用这些属性来实现其归一化转换。
预处理器也可以是无状态的,并且可以在不需要拟合的情况下转换数据。例如,预处理器可能只是删除一列,这不需要任何状态来拟合。
如果你正在实现自己的预处理器子类,你应该重写以下内容:
_fit
如果你的预处理器是有状态的。否则,设置_is_fittable=False
。为了获得最佳性能,请实现
_transform_pandas
和/或_transform_numpy
。否则,数据将被转换以匹配已实现的方法。
PublicAPI (测试版): 此API目前处于测试阶段,在成为稳定版本之前可能会发生变化。
方法
加载通过
self.serialize()
序列化的原始预处理器。将此预处理器适配到数据集。
将此预处理器适配到数据集,然后转换数据集。
批处理格式提示上游生产者尝试生成最佳块格式。
返回此预处理器的字符串序列化表示。
转换给定的数据集。
转换单个批次的数据。