ray.rllib.utils.replay_buffers.prioritized_replay_buffer.PrioritizedReplayBuffer.sample#
- PrioritizedReplayBuffer.sample(num_items: int, beta: float, **kwargs) SampleBatch | MultiAgentBatch | Dict[str, Any] | None [源代码]#
从这个缓冲区中采样
num_items
项,包括优先权重。结果中的样本可能会重复。
样本批次的存储示例: - 如果选择了存储单元
timesteps
并且添加了大小为5的批次,sample(5) 将返回一个包含15个时间步的连接批次。 - 如果选择了存储单元 ‘sequences’ 并且添加了不同长度的序列,sample(5) 将返回一个连接批次,其时间步数等于5个采样序列的时间步数之和。 - 如果选择了存储单元 ‘episodes’ 并且添加了不同长度的片段,sample(5) 将返回一个连接批次,其时间步数等于5个采样片段的时间步数之和。- 参数:
num_items – 从此缓冲区中采样的项目数量。
beta – 使用重要性权重的程度(0 - 无校正,
correction). (1 - full)
**kwargs – 向前兼容的关键字参数。
- 返回:
包含“weights”和“batch_indexes”字段的连接SampleBatch,表示每个采样转换的重要性采样(IS)以及采样经验在缓冲区中的原始索引。
开发者API: 此API可能会在Ray的次要版本之间发生变化。