ray.rllib.policy.policy_map.策略映射#

class ray.rllib.policy.policy_map.PolicyMap(*, capacity: int = 100, policy_states_are_swappable: bool = False, worker_index=None, num_workers=None, policy_config=None, session_creator=None, seed=None)[源代码]#

基类：dict

将策略ID映射到策略对象。

因此，在内存中保留 n 个策略，并且在达到容量时将最近最少使用的策略写入磁盘。这允许向基于联赛设置的算法添加数百个策略而不会耗尽内存。

方法

`__init__`	初始化一个 PolicyMap 实例。
`clear`
`copy`
`fromkeys`	使用可迭代对象中的键创建一个新字典，并将值设置为指定的值。
`items`	遍历所有策略，包括暂存的策略。
`keys`	返回所有有效键，包括被隐藏的键。
`pop`	如果未找到键，则返回给定的默认值；否则，引发 KeyError。
`popitem`	移除并返回一个 (键, 值) 对作为 2-tuple。
`setdefault`	如果字典中不存在键，则插入键并赋予默认值。
`values`	返回所有有效值，包括暂存的值。