sklearn.feature_extraction#

特征提取自原始数据。

User guide. See the 特征提取 section for further details.

DictVectorizer

将特征-值映射列表转换为向量。

FeatureHasher

实现特征哈希,即哈希技巧。

From images#

工具从图像中提取特征。

image.PatchExtractor

提取图像集合中的补丁。

image.extract_patches_2d

将2D图像重塑为补丁集合。

image.grid_to_graph

图的像素到像素连接。

image.img_to_graph

图的像素到像素梯度连接。

image.reconstruct_from_patches_2d

从所有补丁重建图像。

From text#

工具用于从文本文档构建特征向量。

text.CountVectorizer

将一组文本文档转换为标记计数矩阵。

text.HashingVectorizer

将一组文本文档转换为标记出现次数的矩阵。

text.TfidfTransformer

将计数矩阵转换为归一化的tf或tf-idf表示形式。

text.TfidfVectorizer

将一组原始文档转换为TF-IDF特征矩阵。