包装器列表¶

Gymnasium 提供了许多常用的包装器，如下所列。更多信息可以在包装器类型的页面中找到。

名称	描述
`AtariPreprocessing`	实现了Atari环境常用的预处理技术（不包括帧堆叠）。
`Autoreset`	当达到终止或截断状态时，包装环境会自动重置。
`ClipAction`	将 `action` 传递给 `step` 时，将其裁剪到环境的 `action_space` 范围内。
`ClipReward`	将环境的奖励值裁剪在上下限之间。
`DelayObservation`	向从环境中返回的观察结果添加延迟。
`DtypeObservation`	将观测数组的 dtype 修改为指定的 dtype。
`FilterObservation`	通过一组键或索引过滤字典或元组观察空间。
`FlattenObservation`	将环境的观察空间展平，并对 `reset` 和 `step` 函数中的每个观察结果进行展平处理。
`FrameStackObservation`	以滚动方式堆叠过去 `N` 个时间步的观测值。
`GrayscaleObservation`	将由 `reset` 和 `step` 计算的图像观察结果从 RGB 转换为灰度。
`HumanRendering`	允许在支持“rgb_array”渲染的环境中进行类似人类的渲染。
`JaxToNumpy`	将基于 Jax 的环境封装起来，以便可以使用 NumPy 数组与之交互。
`JaxToTorch`	将基于 Jax 的环境封装起来，以便可以使用 PyTorch 张量与之交互。
`MaxAndSkipObservation`	跳过第 N 帧（观察）并返回最后两次观察之间的最大值。
`NormalizeObservation`	将观测值标准化，使其以均值为中心，并具有单位方差。
`NormalizeReward`	将即时奖励归一化，使得其指数移动平均值具有固定方差。
`NumpyToTorch`	将基于 NumPy 的环境封装，使其可以通过 PyTorch 张量进行交互。
`OrderEnforcing`	如果在 `render` 之前调用 `step` 或 `render` ，将会产生错误。
`PassiveEnvChecker`	一个被动环境检查器包装器，围绕 `step`、`reset` 和 `render` 函数，检查它们是否遵循 gymnasium 的 API。
`RecordEpisodeStatistics`	这个包装器将跟踪累积奖励和情节长度。
`RecordVideo`	使用环境的渲染函数记录环境片段的视频。
`RenderCollection`	收集环境的渲染帧，例如 `render` 返回一个 `list[RenderedFrame]`。
`AddRenderObservation`	在环境的观察中包含渲染的观察结果。
`RescaleAction`	将环境的 `Box` 动作空间仿射（线性）重新缩放到 `[min_action, max_action]` 范围内。
`RescaleObservation`	将环境的 `Box` 观测空间仿射（线性）重新缩放到 `[min_obs, max_obs]` 范围内。
`ReshapeObservation`	将基于数组的观测值重塑为指定形状。
`ResizeObservation`	使用 OpenCV 将图像观察结果调整为指定形状。
`StickyAction`	为同一 `step` 函数添加动作重复的概率。
`TimeAwareObservation`	在观察中增加一个情节内所采取的时间步数。
`TimeLimit`	通过在超过最大时间步数时截断环境，限制环境的步数。
`TransformAction`	在将修改后的值传递给环境 `step` 函数之前，对 `action` 应用一个函数。
`TransformObservation`	对从环境的 `reset` 和 `step` 接收到的 `observation` 应用一个函数，该函数将返回给用户。
`TransformReward`	将一个函数应用于从环境的 `step` 中接收到的 `reward`。

仅向量包装器¶

名称	描述
`DictInfoToList`	将向量化环境的infos从`dict`转换为`List[dict]`。
`VectorizeTransformAction`	为向量环境向量化单一代理转换动作包装器。
`VectorizeTransformObservation`	为向量环境向量化单一代理转换观察包装器。
`VectorizeTransformReward`	向量化单一代理转换奖励包装器以用于向量环境。