Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.policy.torch_policy_v2.TorchPolicyV2.init#

TorchPolicyV2.__init__(observation_space: gymnasium.spaces.Space, action_space: gymnasium.spaces.Space, config: dict, *, max_seq_len: int = 20)[源代码]#

初始化一个 TorchPolicy 实例。

参数:

observation_space – 策略的观察空间。
action_space – 策略的动作空间。
config – 策略的配置字典。
max_seq_len – LSTM 训练的最大序列长度。