ray.rllib.evaluation.sampler.SyncSampler.__init__#
- SyncSampler.__init__(*, worker: RolloutWorker, env: BaseEnv, clip_rewards: bool | float, rollout_fragment_length: int, count_steps_by: str = 'env_steps', callbacks: DefaultCallbacks, multiple_episodes_in_batch: bool = False, normalize_actions: bool = True, clip_actions: bool = False, observation_fn: ObservationFunction | None = None, sample_collector_class: Type[SampleCollector] | None = None, render: bool = False, policies=None, policy_mapping_fn=None, preprocessors=None, obs_filters=None, tf_sess=None, horizon=-1, soft_horizon=-1, no_done_at_end=-1)[源代码]#
初始化一个 SyncSampler 实例。
- 参数:
worker – 将使用此采样器的 RolloutWorker。
env – 任何 Env 对象。将被转换为 RLlib BaseEnv。
clip_rewards – True 表示 +/-1.0 剪裁,实际浮点数值表示 +/- 值剪裁。False 表示无剪裁。
rollout_fragment_length – 在从数据构建 SampleBatch 并重置 SampleBatchBuilder 对象之前,要收集的片段长度。
count_steps_by – “env_steps”(默认)或“agent_steps”之一。如果你希望按单个代理的步骤计算展开长度,请使用“agent_steps”。在多代理环境中,单个env_step包含一个或多个agent_steps,具体取决于当前正在进行的游戏中任何给定时间存在的代理数量。
callbacks – 在回放过程中发生情节事件时要使用的回调对象。
multiple_episodes_in_batch – 是否将多个片段打包到每个批次中。这保证了批次的大小将恰好为
rollout_fragment_length。normalize_actions – 是否将动作归一化到动作空间的边界。
clip_actions – 是否根据给定的 action_space 的边界裁剪动作。
observation_fn – 可选的多智能体观察函数,用于预处理观察结果。
sample_collector_class – 一个可选的 SampleCollector 子类,用于收集、存储和检索环境、模型和采样器数据。
render – 是否在每一步之后尝试渲染环境。