ray.rllib.utils.replay_buffers.prioritized_replay_buffer.PrioritizedReplayBuffer.sample#

PrioritizedReplayBuffer.sample(num_items: int, beta: float, **kwargs) SampleBatch | MultiAgentBatch | Dict[str, Any] | None[源代码]#

从这个缓冲区中采样 num_items 项,包括优先权重。

结果中的样本可能会重复。

样本批次的存储示例: - 如果选择了存储单元 timesteps 并且添加了大小为5的批次,sample(5) 将返回一个包含15个时间步的连接批次。 - 如果选择了存储单元 ‘sequences’ 并且添加了不同长度的序列,sample(5) 将返回一个连接批次,其时间步数等于5个采样序列的时间步数之和。 - 如果选择了存储单元 ‘episodes’ 并且添加了不同长度的片段,sample(5) 将返回一个连接批次,其时间步数等于5个采样片段的时间步数之和。

参数:
  • num_items – 从此缓冲区中采样的项目数量。

  • beta – 使用重要性权重的程度(0 - 无校正,

  • correction). (1 - full)

  • **kwargs – 向前兼容的关键字参数。

返回:

包含“weights”和“batch_indexes”字段的连接SampleBatch,表示每个采样转换的重要性采样(IS)以及采样经验在缓冲区中的原始索引。

开发者API: 此API可能会在Ray的次要版本之间发生变化。