ray.rllib.utils.replay_buffers.prioritized_replay_buffer.PrioritizedReplayBuffer.sample#

PrioritizedReplayBuffer.sample(num_items: int, beta: float, **kwargs) → SampleBatch | MultiAgentBatch | Dict[str, Any] | None[源代码]#

从这个缓冲区中采样 num_items 项，包括优先权重。

结果中的样本可能会重复。

样本批次的存储示例： - 如果选择了存储单元 timesteps 并且添加了大小为5的批次，sample(5) 将返回一个包含15个时间步的连接批次。 - 如果选择了存储单元 ‘sequences’ 并且添加了不同长度的序列，sample(5) 将返回一个连接批次，其时间步数等于5个采样序列的时间步数之和。 - 如果选择了存储单元 ‘episodes’ 并且添加了不同长度的片段，sample(5) 将返回一个连接批次，其时间步数等于5个采样片段的时间步数之和。

参数:

num_items – 从此缓冲区中采样的项目数量。
beta – 使用重要性权重的程度（0 - 无校正，
correction). (1 - full)
**kwargs – 向前兼容的关键字参数。

返回:

包含“weights”和“batch_indexes”字段的连接SampleBatch，表示每个采样转换的重要性采样（IS）以及采样经验在缓冲区中的原始索引。

开发者API: 此API可能会在Ray的次要版本之间发生变化。