ray.rllib.policy.eager_tf_policy_v2.EagerTFPolicyV2#
- class ray.rllib.policy.eager_tf_policy_v2.EagerTFPolicyV2(observation_space: gymnasium.spaces.Space, action_space: gymnasium.spaces.Space, config: dict, **kwargs)[源代码]#
基类:
Policy
基于 TF-eager / TF2 的 TensorFlow 策略。
此类旨在通过子类化来使用和扩展。
方法
此策略的动作分布函数。
给定策略,用于采样新动作的自定义函数。
使用此 Policy 实例调用给定的函数。
梯度计算函数(从损失张量,使用本地优化器)。
梯度计算函数(从损失张量,使用本地优化器)。
计算并返回一个单一(B=1)的动作值。
将导出策略检查点保存到本地目录并返回一个 AIR 检查点。
从 compute_actions() 中获取并返回的额外值。
在梯度计算后要报告的额外统计数据。
从给定的策略或算法检查点创建新的策略实例。
从状态对象中恢复策略。
获取批处理可分性请求。
从连接器获取时间指标。
返回计算机的网络名称。
返回给定缓冲区中当前加载的样本数量。
返回用于计算动作的 tf.Session 对象,或返回 None。
梯度统计函数。
从本地文件导入策略。
learn_on_batch()
和compute_actions
调用的最大视图需求字典。从给定的回放缓存中采样一批数据并执行更新。
在已经加载到缓冲区中的数据上运行一次SGD的单步操作。
将给定的 SampleBatch 批量加载到设备的内存中。
使用模型、dist_class 和 train_batch 计算此策略的损失。
构建此策略的基础模型。
返回 RL 模块(仅在启用 RLModule API 时)。
为循环 RLModules 添加时间维度。
在全局变量更新时调用。
用于策略优化的TF优化器。
以 SampleBatch 格式进行轨迹后处理。
重置此策略的操作连接器和代理连接器。
如果配置可用,则恢复代理和操作连接器。
统计函数。
返回此策略中所有可保存变量的列表。