包装器列表

Gymnasium 提供了许多常用的包装器,如下所列。更多信息可以在包装器类型的页面中找到。

名称

描述

AtariPreprocessing

实现了Atari环境常用的预处理技术(不包括帧堆叠)。

Autoreset

当达到终止或截断状态时,包装环境会自动重置。

ClipAction

action 传递给 step 时,将其裁剪到环境的 action_space 范围内。

ClipReward

将环境的奖励值裁剪在上下限之间。

DelayObservation

向从环境中返回的观察结果添加延迟。

DtypeObservation

将观测数组的 dtype 修改为指定的 dtype。

FilterObservation

通过一组键或索引过滤字典或元组观察空间。

FlattenObservation

将环境的观察空间展平,并对 resetstep 函数中的每个观察结果进行展平处理。

FrameStackObservation

以滚动方式堆叠过去 N 个时间步的观测值。

GrayscaleObservation

将由 resetstep 计算的图像观察结果从 RGB 转换为灰度。

HumanRendering

允许在支持“rgb_array”渲染的环境中进行类似人类的渲染。

JaxToNumpy

将基于 Jax 的环境封装起来,以便可以使用 NumPy 数组与之交互。

JaxToTorch

将基于 Jax 的环境封装起来,以便可以使用 PyTorch 张量与之交互。

MaxAndSkipObservation

跳过第 N 帧(观察)并返回最后两次观察之间的最大值。

NormalizeObservation

将观测值标准化,使其以均值为中心,并具有单位方差。

NormalizeReward

将即时奖励归一化,使得其指数移动平均值具有固定方差。

NumpyToTorch

将基于 NumPy 的环境封装,使其可以通过 PyTorch 张量进行交互。

OrderEnforcing

如果在 render 之前调用 steprender ,将会产生错误。

PassiveEnvChecker

一个被动环境检查器包装器,围绕 stepresetrender 函数,检查它们是否遵循 gymnasium 的 API。

RecordEpisodeStatistics

这个包装器将跟踪累积奖励和情节长度。

RecordVideo

使用环境的渲染函数记录环境片段的视频。

RenderCollection

收集环境的渲染帧,例如 render 返回一个 list[RenderedFrame]

AddRenderObservation

在环境的观察中包含渲染的观察结果。

RescaleAction

将环境的 Box 动作空间仿射(线性)重新缩放到 [min_action, max_action] 范围内。

RescaleObservation

将环境的 Box 观测空间仿射(线性)重新缩放到 [min_obs, max_obs] 范围内。

ReshapeObservation

将基于数组的观测值重塑为指定形状。

ResizeObservation

使用 OpenCV 将图像观察结果调整为指定形状。

StickyAction

为同一 step 函数添加动作重复的概率。

TimeAwareObservation

在观察中增加一个情节内所采取的时间步数。

TimeLimit

通过在超过最大时间步数时截断环境,限制环境的步数。

TransformAction

在将修改后的值传递给环境 step 函数之前,对 action 应用一个函数。

TransformObservation

对从环境的 resetstep 接收到的 observation 应用一个函数,该函数将返回给用户。

TransformReward

将一个函数应用于从环境的 step 中接收到的 reward

仅向量包装器

名称

描述

DictInfoToList

将向量化环境的infos从dict转换为List[dict]

VectorizeTransformAction

为向量环境向量化单一代理转换动作包装器。

VectorizeTransformObservation

为向量环境向量化单一代理转换观察包装器。

VectorizeTransformReward

向量化单一代理转换奖励包装器以用于向量环境。