ray.rllib.policy.policy_map.策略映射#
- class ray.rllib.policy.policy_map.PolicyMap(*, capacity: int = 100, policy_states_are_swappable: bool = False, worker_index=None, num_workers=None, policy_config=None, session_creator=None, seed=None)[源代码]#
基类:
dict
将策略ID映射到策略对象。
因此,在内存中保留 n 个策略,并且在达到容量时将最近最少使用的策略写入磁盘。这允许向基于联赛设置的算法添加数百个策略而不会耗尽内存。
方法
初始化一个 PolicyMap 实例。
使用可迭代对象中的键创建一个新字典,并将值设置为指定的值。
遍历所有策略,包括暂存的策略。
返回所有有效键,包括被隐藏的键。
如果未找到键,则返回给定的默认值;否则,引发 KeyError。
移除并返回一个 (键, 值) 对作为 2-tuple。
如果字典中不存在键,则插入键并赋予默认值。
返回所有有效值,包括暂存的值。