ray.rllib.policy.policy_map.策略映射#

class ray.rllib.policy.policy_map.PolicyMap(*, capacity: int = 100, policy_states_are_swappable: bool = False, worker_index=None, num_workers=None, policy_config=None, session_creator=None, seed=None)[源代码]#

基类:dict

将策略ID映射到策略对象。

因此,在内存中保留 n 个策略,并且在达到容量时将最近最少使用的策略写入磁盘。这允许向基于联赛设置的算法添加数百个策略而不会耗尽内存。

方法

__init__

初始化一个 PolicyMap 实例。

clear

copy

fromkeys

使用可迭代对象中的键创建一个新字典,并将值设置为指定的值。

items

遍历所有策略,包括暂存的策略。

keys

返回所有有效键,包括被隐藏的键。

pop

如果未找到键,则返回给定的默认值;否则,引发 KeyError。

popitem

移除并返回一个 (键, 值) 对作为 2-tuple。

setdefault

如果字典中不存在键,则插入键并赋予默认值。

values

返回所有有效值,包括暂存的值。