特征分箱是一种将连续变量转化为分类值的方法，使用预定义的箱数。当连续特征具有过多的唯一值或者在预期范围之外存在极端值时，这种方法非常有效。[了解更多](feature-engineering.md#bin-numeric-features)

#### [合并稀有级别](feature-engineering.md#combine-rare-levels)

有时候数据集中的分类特征（或多个分类特征）具有非常多的级别（即高基数特征）。如果将这样的特征（或特征）编码为数值，那么结果矩阵就是一个稀疏矩阵。[了解更多](feature-engineering.md#combine-rare-levels)

#### [创建聚类](feature-engineering.md#create-clusters)

使用数据中的现有特征创建聚类是一种无监督机器学习技术，用于构建和创建新特征。[了解更多](feature-engineering.md#create-clusters)

#### [特征选择](feature-selection.md#feature-selection)

特征选择是一种用于选择数据集中对目标变量预测最有贡献的特征的过程。使用选定的特征而不是所有特征可以减少过拟合的风险，提高准确性并减少训练时间。[了解更多](feature-selection.md#feature-selection)

#### [去除多重共线性](feature-selection.md#remove-multicollinearity)

多重共线性（也称为共线性）是指数据集中的一个特征变量与同一数据集中的另一个特征变量高度线性相关的现象。[了解更多](feature-selection.md#remove-multicollinearity)

#### [主成分分析](feature-selection.md#principal-component-analysis)

主成分分析（PCA）是一种无监督技术，用于降低数据的维度。它通过压缩特征空间来实现这一目的。[了解更多](feature-selection.md#principal-component-analysis)

#### [忽略低方差](feature-selection.md#ignore-low-variance)

有时候数据集中可能存在一个具有多个级别的分类特征，这些级别的分布是倾斜的，其中一个级别可能主导其他级别。[了解更多](feature-selection.md#ignore-low-variance)

#### [必需参数](other-setup-parameters.md#mandatory-parameters)

在设置函数中，只有两个非可选参数，即数据和目标变量的名称。[了解更多](other-setup-parameters.md#mandatory-parameters)

#### [实验记录](other-setup-parameters.md#experiment-logging)

PyCaret使用MLflow进行实验跟踪。设置中的一个参数可以自动跟踪所有指标、超参数和其他模型工件。[了解更多](other-setup-parameters.md#experiment-logging)

#### [模型选择](other-setup-parameters.md#model-selection)

设置中的参数可用于设置模型选择过程的参数。这些参数与数据预处理无关，但可以影响模型选择过程。[了解更多](other-setup-parameters.md#model-selection)

#### [其他杂项](other-setup-parameters.md#other-miscellaneous)

设置中的其他杂项参数用于控制实验设置，例如使用GPU进行训练或设置实验的详细程度。[了解更多](other-setup-parameters.md#other-miscellaneous)

⚙ 预处理

选择标签 :point_down:​

选择标签 :point_down: