ray.data.预处理器.预处理器#

class ray.data.preprocessor.Preprocessor[源代码]#

基类:ABC

实现了一个机器学习预处理操作。

预处理器是具有状态的对象,可以针对数据集进行拟合,并用于转换本地数据批次和分布式数据。例如,归一化预处理器可能在拟合过程中计算字段的均值和标准差,并使用这些属性来实现其归一化转换。

预处理器也可以是无状态的,并且可以在不需要拟合的情况下转换数据。例如,预处理器可能只是删除一列,这不需要任何状态来拟合。

如果你正在实现自己的预处理器子类,你应该重写以下内容:

  • _fit 如果你的预处理器是有状态的。否则,设置 _is_fittable=False

  • 为了获得最佳性能,请实现 _transform_pandas 和/或 _transform_numpy。否则,数据将被转换以匹配已实现的方法。

PublicAPI (测试版): 此API目前处于测试阶段,在成为稳定版本之前可能会发生变化。

方法

__init__

deserialize

加载通过 self.serialize() 序列化的原始预处理器。

fit

将此预处理器适配到数据集。

fit_transform

将此预处理器适配到数据集,然后转换数据集。

preferred_batch_format

批处理格式提示上游生产者尝试生成最佳块格式。

serialize

返回此预处理器的字符串序列化表示。

transform

转换给定的数据集。

transform_batch

转换单个批次的数据。