mambular.data_utils#

class mambular.data_utils.MambularDataset(*args: Any, **kwargs: Any)[源代码]#

用于处理具有分离的分类和数值特征的结构化数据的定制数据集,适用于回归和分类任务。

参数:
  • cat_features_list (list of Tensors) – 表示分类特征的张量列表。

  • num_features_list (list of Tensors) – 表示数值特征的张量列表。

  • labels (Tensor) – 标签的张量。

  • regression (bool, optional) – 一个标志,指示数据集是否用于回归任务。默认为 True。

class mambular.data_utils.MambularDataModule(*args: Any, **kwargs: Any)[源代码]#

一个用于以结构化方式管理训练和验证数据加载器的 PyTorch Lightning 数据模块。

此类简化了在训练循环中为训练和验证数据集进行批量数据加载的过程,并且在使用 PyTorch Lightning 的训练框架时特别有用。

参数:
  • preprocessor – object 你的预处理器类的一个实例。

  • batch_size – int DataLoader 的批次大小。

  • shuffle – bool 是否在 DataLoader 中打乱训练数据。

  • X_val – DataFrame 或 None,可选 验证特征。如果为 None,则使用训练-测试分割。

  • y_val – 类似数组或 None,可选 验证标签。如果为 None,则使用训练-测试分割。

  • val_size – float, 可选 如果 X_valy_val 为 None,则在验证分割中包含的数据比例。

  • random_state – int, 可选 数据分割中用于重现性的随机种子。

  • regression – bool, 可选 问题是否为回归 (True) 或分类 (False)。

preprocess_data(X_train, y_train, X_val=None, y_val=None, val_size=0.2, random_state=101)[源代码]#

预处理训练和验证数据。

参数:
  • X_train (DataFrame or array-like, shape (n_samples_train, n_features)) – 训练特征集。

  • y_train (array-like, shape (n_samples_train,)) – 训练目标值。

  • X_val (DataFrame or array-like, shape (n_samples_val, n_features), optional) – 验证特征集。如果为 None,将从 X_train 创建一个验证集。

  • y_val (array-like, shape (n_samples_val,), optional) – 验证目标值。如果为 None,将从 y_train 创建一个验证集。

  • val_size (float, optional) – 如果 X_valy_val 为 None,则在验证分割中包含的数据比例。

  • random_state (int, optional) – 数据分割中用于再现性的随机种子。

返回类型:

None

setup(stage)[源代码]#

转换数据并创建 DataLoader。

test_dataloader()[源代码]#

返回测试数据加载器。

返回:

测试数据集的 DataLoader 实例。

返回类型:

DataLoader

train_dataloader()[源代码]#

返回训练数据加载器。

返回:

用于训练数据集的 DataLoader 实例。

返回类型:

DataLoader

val_dataloader()[源代码]#

返回验证数据加载器。

返回:

验证数据集的 DataLoader 实例。

返回类型:

DataLoader