data.buffer.middleware.priority¶

优先级¶

优先经验回放¶

class ding.data.buffer.middleware.priority.PriorityExperienceReplay(buffer: Buffer, IS_weight: bool = True, priority_power_factor: float = 0.6, IS_weight_power_factor: float = 0.4, IS_weight_anneal_train_iter: int = 100000)[source]¶

Overview:: 实现优先级经验回放（PER）的中间件。

__init__(buffer: Buffer, IS_weight: bool = True, priority_power_factor: float = 0.6, IS_weight_power_factor: float = 0.4, IS_weight_anneal_train_iter: int = 100000) → None[source]¶

Arguments:

buffer (Buffer): 用于PER的缓冲区。
IS_weight (bool): 是否使用重要性采样。
priority_power_factor (float): 调整采样概率与优先级之间敏感度的因子。
IS_weight_power_factor (float): 该因子用于调整重要性采样中样本稀有性与采样概率之间的敏感性。
IS_weight_anneal_train_iter (float): 控制训练期间IS_weight_power_factor增加的因素。