sklearn.utils#

各种工具,以帮助开发。

Developer guide. See the 开发者工具 section for further details.

Bunch

容器对象,将键暴露为属性。

_safe_indexing

返回使用索引的X的行、项或列。

as_float_array

将类似数组的对象转换为浮点数数组。

assert_all_finite

抛出ValueError如果X包含NaN或无穷大。

deprecated

装饰器,用于将函数或类标记为已弃用。

estimator_html_repr

构建一个估计器的HTML表示。

gen_batches

生成器,用于创建包含从0到 nbatch_size 个元素的切片。

gen_even_slices

生成器,用于创建均匀分布的 n_packs 个切片,直到 n

indexable

使数组可索引以进行交叉验证。

murmurhash3_32

计算种子处键的32位murmurhash3。

resample

重采样数组或稀疏矩阵的一致方式。

safe_mask

返回一个可以安全用于X的掩码。

safe_sqr

逐元素平方数组类和稀疏矩阵。

shuffle

打乱数组或稀疏矩阵的一致方式。

Input and parameter validation#

函数用于验证 scikit-learn 估计器中的输入和参数。

check_X_y

输入验证用于标准估计器。

check_array

对数组、列表、稀疏矩阵或类似对象的输入验证。

check_consistent_length

检查所有数组是否具有一致的第一维度。

check_random_state

将种子转换为 np.random.RandomState 实例。

check_scalar

验证标量参数的类型和值。

validation.check_is_fitted

执行估计器的is_fitted验证。

validation.check_memory

检查 memory 是否类似于 joblib.Memory。

validation.check_symmetric

确保数组是二维的、方形的和对称的。

validation.column_or_1d

将列或一维 numpy 数组展平,否则引发错误。

validation.has_fit_parameter

检查估计器的fit方法是否支持给定的参数。

Meta-estimators#

工具用于元估计器。

metaestimators.available_if

一个只有在检查返回真值时才可用的属性。

Weight handling based on class labels#

工具用于根据类别标签处理权重。

class_weight.compute_class_weight

估计不平衡数据集的类权重。

class_weight.compute_sample_weight

估计不平衡数据集的样本权重。

Dealing with multiclass target in classifiers#

工具来处理分类器中的多类/多输出目标。

multiclass.is_multilabel

检查 y 是否为多标签格式。

multiclass.type_of_target

确定由目标指示的数据类型。

multiclass.unique_labels

提取一个有序的唯一标签数组。

Optimal mathematical operations#

工具在scikit-learn中执行最佳数学运算。

extmath.density

计算稀疏向量的密度。

extmath.fast_logdet

计算方阵的行列式对数。

extmath.randomized_range_finder

计算一个正交矩阵,其范围近似于A的范围。

extmath.randomized_svd

计算截断的随机SVD。

extmath.safe_sparse_dot

点积能够正确处理稀疏矩阵的情况。

extmath.weighted_mode

返回一个数组,其中包含传入数组的加权众数(最常见的)值。

Working with sparse matrices and arrays#

一系列用于处理稀疏矩阵和数组的实用工具。

sparsefuncs.incr_mean_variance_axis

计算CSR或CSC矩阵沿轴的增量均值和方差。

sparsefuncs.inplace_column_scale

原地列缩放CSC/CSR矩阵。

sparsefuncs.inplace_csr_column_scale

原地列缩放CSR矩阵。

sparsefuncs.inplace_row_scale

原地行缩放CSR或CSC矩阵。

sparsefuncs.inplace_swap_column

交换CSC/CSR矩阵的两列,原地操作。

sparsefuncs.inplace_swap_row

交换CSC/CSR矩阵的两行,原地操作。

sparsefuncs.mean_variance_axis

计算CSR或CSC矩阵沿某一轴的均值和方差。

工具用于处理在Cython中编写的稀疏矩阵和数组。

sparsefuncs_fast.inplace_csr_row_normalize_l1

就地规范化CSR矩阵或数组的行,使其L1范数归一化。

sparsefuncs_fast.inplace_csr_row_normalize_l2

就地规范化CSR矩阵或数组的行,使其L2范数为1。

Working with graphs#

图工具和算法。

graph.single_source_shortest_path_length

返回从源点到所有可到达节点的最短路径长度。

Random sampling#

工具用于随机抽样。

random.sample_without_replacement

采样整数而不进行替换。

Auxiliary functions that operate on arrays#

一个小型的辅助函数集合,用于操作数组。

arrayfuncs.min_pos

查找数组中正数值的最小值。

Metadata routing#

工具用于在scikit-learn估计器中路由元数据。

User guide. See the 元数据路由 section for further details.

metadata_routing.MetadataRequest

包含消费者的元数据请求信息。

metadata_routing.MetadataRouter

存储并处理路由对象的元数据路由。

metadata_routing.MethodMapping

存储路由器调用者和被调用者方法之间的映射。

metadata_routing.get_routing_for_object

获取给定对象的 Metadata{Router, Request} 实例。

metadata_routing.process_routing

验证和路由输入参数。

Discovering scikit-learn objects#

工具来发现scikit-learn对象。

discovery.all_displays

获取来自 sklearn 的所有显示列表。

discovery.all_estimators

获取 sklearn 中的所有估计器列表。

discovery.all_functions

获取 sklearn 中的所有函数列表。

API compatibility checkers#

各种工具用于检查估计器与scikit-learn API的兼容性。

estimator_checks.check_estimator

检查估计器是否符合scikit-learn的约定。

estimator_checks.parametrize_with_checks

装饰器特定于Pytest,用于参数化估计器检查。

Parallel computing#

自定义 joblibthreadpoolctl 工具以用于 scikit-learn 使用。

parallel.Parallel

调整 joblib.Parallel 以传播 scikit-learn 配置。

parallel.delayed

装饰器用于捕获函数的参数。