版本 0.13#
版本 0.13.1#
2013年2月23日
0.13.1 版本仅修复了一些错误,并未增加任何新功能。
更新日志#
修复了
cross_validation.train_test_split
函数被 Yaroslav Halchenko 误认为是测试的测试错误。修复了
cluster.MiniBatchKMeans
中对小簇重新分配的错误,由 Gael Varoquaux 修复。修复了
decomposition.KernelPCA
中gamma
的默认值,由 Lars Buitinck 修复。将 joblib 更新至
0.7.0d
,由 Gael Varoquaux 完成。修复了
ensemble.GradientBoostingClassifier
中偏差的比例,由 Peter Prettenhofer 修复。改进了
multiclass.OneVsOneClassifier
中的平局决胜机制,由 Andreas Müller 完成。其他对测试和文档的小改进。
贡献者#
按提交次数列出的 0.13.1 版本贡献者名单。
5 Robert Marchman
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
版本 0.13#
2013年1月21日
新的估计器类#
dummy.DummyClassifier
和dummy.DummyRegressor
,两个数据无关的预测器,由 Mathieu Blondel 实现。用于检查你的估计器的合理性。参见用户指南中的 虚拟估计器 。多输出支持由 Arnaud Joly 添加。decomposition.FactorAnalysis
,一个实现经典因子分析的转换器,由 Christian Osendorfer 和 Alexandre Gramfort 实现。参见用户指南中的 因子分析 。feature_extraction.FeatureHasher
,一个实现“哈希技巧”的转换器,用于通过 Lars Buitinck 和feature_extraction.text.HashingVectorizer
对文本文档进行快速、低内存的特征提取,由 Olivier Grisel 开发。请参阅 特征哈希 和 使用哈希技巧向量化大型文本语料库 获取文档和示例用法。pipeline.FeatureUnion
,一个通过 Andreas Müller 开发的转换器,用于连接多个其他转换器的结果。请参阅用户指南中的 FeatureUnion: 复合特征空间 。random_projection.GaussianRandomProjection
,random_projection.SparseRandomProjection
以及函数random_projection.johnson_lindenstrauss_min_dim
。前两个是实现高斯和稀疏随机投影矩阵的转换器,由 Olivier Grisel 和 Arnaud Joly 开发。请参阅用户指南中的 随机投影 。kernel_approximation.Nystroem
,一个通过 Andreas Müller 开发的转换器,用于近似任意核函数。请参阅用户指南中的 Nystroem 方法用于核近似 。preprocessing.OneHotEncoder
,一个通过 Andreas Müller 开发的转换器,用于计算分类特征的二进制编码。请参阅用户指南中的 Encoding categorical features 。linear_model.PassiveAggressiveClassifier
和linear_model.PassiveAggressiveRegressor
,通过 Rob Zinkov 和 Mathieu Blondel 开发的预测器,实现了一种高效的线性模型的随机优化。请参阅用户指南中的 被动攻击算法 。ensemble.RandomTreesEmbedding
,一个通过 Andreas Müller 开发的转换器,用于使用完全随机树的集成创建高维稀疏表示。请参阅用户指南中的 完全随机树嵌入 。manifold.SpectralEmbedding
和函数manifold.spectral_embedding
,实现了用于非线性降维的“拉普拉斯特征映射”变换,由 Wei
李。参见用户指南中的 谱嵌入 。
更新日志#
metrics.zero_one_loss
(以前为metrics.zero_one
)现在有一个标准化输出的选项,报告错误分类的比例,而不是错误分类的原始数量。由 Kyle Beauchamp 编写。tree.DecisionTreeClassifier
及其所有派生集合模型现在支持样本加权,由 Noel Dawe 和 Gilles Louppe 编写。在使用随机树森林中的自助样本时,速度改进,由 Peter Prettenhofer 和 Gilles Louppe 编写。
梯度提升的偏依赖图在
ensemble.partial_dependence.partial_dependence
中,由 Peter Prettenhofer 编写。参见示例 部分依赖图和个体条件期望图 。网站上的目录现在已变得可展开,由 Jaques Grobler 编写。
feature_selection.SelectPercentile
现在以确定性方式打破平局,而不是返回所有排名相同的特征。feature_selection.SelectKBest
和feature_selection.SelectPercentile
由于使用分数而不是 p 值来排名结果,因此更加数值稳定。这意味着它们有时可能会选择与之前不同的特征。使用
sparse_cg
求解器的岭回归和岭分类拟合不再具有二次内存复杂度,由 Lars Buitinck 和 Fabian Pedregosa 编写。岭回归和岭分类现在支持一种新的快速求解器,称为
lsqr
,由 Mathieu Blondel 编写。metrics.precision_recall_curve
的速度提升,由 Conrad Lee 编写。在
datasets.dump_svmlight_file
中增加了对读写具有成对偏好属性(svmlight 文件格式中的 qid)的 svmlight 文件的支持。datasets.load_svmlight_file
by Fabian Pedregosa 。更快速且更健壮的
metrics.confusion_matrix
和 clustering_evaluation 由 Wei Li 实现。cross_validation.cross_val_score
现在支持预计算的核函数 和亲和矩阵,由 Andreas Müller 实现。LARS 算法通过启发式方法变得更加数值稳定,这些方法可以丢弃 过于相关的回归变量,并在数值噪声变得占主导地位时停止路径, 由 Gael Varoquaux 实现。
更快速的
metrics.precision_recall_curve
实现 由 Conrad Lee 完成。新的核函数
metrics.chi2_kernel
由 Andreas Müller 实现, 常用于计算机视觉应用。长期存在的
naive_bayes.BernoulliNB
错误由 Shaun Jackman 修复。在
multiclass.OneVsRestClassifier
中实现了predict_proba
,由 Andrew Winterman 完成。改进了梯度提升的一致性:估计器
ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
使用估计器tree.DecisionTreeRegressor
而不是tree._tree.Tree
数据结构,由 Arnaud Joly 实现。修复了 决策树 模块中的浮点异常, 由 Seberg 完成。
修复了当 y_true 只有一个类别时
metrics.roc_curve
失败的问题, 由 Wei Li 完成。添加了
metrics.mean_absolute_error
函数,用于计算 平均绝对误差。metrics.mean_squared_error
、metrics.mean_absolute_error
和metrics.r2_score
指标支持多输出,由 Arnaud Joly 实现。修复了
svm.LinearSVC
和linear_model.LogisticRegression
中的class_weight
支持, 由 Andreas Müller 完成。在早期版本中,class_weight
的含义被错误地反转, 即更高的权重意味着给定类别的正例更少。改进了
sklearn.metrics
中回归和分类指标的叙述文档和一致性, 由 Arnaud Joly 完成。修复了在使用带有未排序索引的csr矩阵时,
sklearn.svm.SVC
中的一个错误,由Xinfan Meng和 Andreas Müller 完成。cluster.MiniBatchKMeans
: 添加了随机重新分配具有少量观测值的聚类中心,由 Gael Varoquaux 完成。
API变更总结#
为了保持一致性,将所有出现的
n_atoms
重命名为n_components
。这适用于:class:decomposition.DictionaryLearning
、decomposition.MiniBatchDictionaryLearning
、decomposition.dict_learning
、decomposition.dict_learning_online
。为了保持一致性,将所有出现的
max_iters
重命名为max_iter
。这适用于semi_supervised.LabelPropagation
和semi_supervised.label_propagation.LabelSpreading
。为了保持一致性,将所有出现的
learn_rate
重命名为learning_rate
。这适用于ensemble.BaseGradientBoosting
和ensemble.GradientBoostingRegressor
。sklearn.linear_model.sparse
模块已被移除。稀疏矩阵支持已经集成到“常规”线性模型中。sklearn.metrics.mean_square_error
,错误地返回了累积误差,已被移除。请改用:func:metrics.mean_squared_error
。不再支持将
class_weight
参数传递给fit
方法。请改为传递给估计器构造函数。GMMs不再具有
decode
和rvs
方法。请改用score
、predict
或sample
方法。Ridge回归和分类中的
solver
拟合选项现已弃用,并将在v0.14中移除。请改用构造函数选项。feature_extraction.text.DictVectorizer
现在返回CSR格式的稀疏矩阵,而不是COO格式。在
cross_validation.KFold
和cross_validation.StratifiedKFold
中将k
重命名为n_folds
,在cross_validation.Bootstrap
中将n_bootstraps
重命名为n_iter
。为了保持一致性,将所有出现的
n_iterations
重命名为n_iter
。 这适用于cross_validation.ShuffleSplit
、cross_validation.StratifiedShuffleSplit
、utils.extmath.randomized_range_finder
和utils.extmath.randomized_svd
。在
linear_model.ElasticNet
和linear_model.SGDClassifier
中用l1_ratio
替换了rho
。rho
参数有不同的含义;引入l1_ratio
是为了避免混淆。 它的含义与之前在linear_model.ElasticNet
中的rho
相同, 以及在linear_model.SGDClassifier
中的(1-rho)
。linear_model.LassoLars
和linear_model.Lars
现在 在多目标情况下存储路径列表,而不是路径数组。hmm.GMMHMM
的属性gmm
被重命名为gmm_
, 以更严格地遵守 API。cluster.spectral_embedding
被移动到manifold.spectral_embedding
。在
manifold.spectral_embedding
和cluster.SpectralClustering
中将eig_tol
重命名为eigen_tol
, 将mode
重命名为eigen_solver
。在
manifold.spectral_embedding
和cluster.SpectralClustering
中将mode
重命名为eigen_solver
。tree.DecisionTreeClassifier
及其所有派生集成模型的classes_
和n_classes_
属性现在在单输出问题中是扁平的, 在多输出问题中是嵌套的。ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
的estimators_
属性 现在是一个tree.DecisionTreeRegressor
数组。在
decomposition.MiniBatchDictionaryLearning
和decomposition.MiniBatchSparsePCA
中将chunk_size
重命名为batch_size
, 以保持一致性。
另外, predict
返回的 dtype 现在反映了 fit
期间 y
的 dtype(以前是 np.float
)。
更改了
cross_validation.train_test_split
中的默认 test_size 为 None,增加了从cross_validation.ShuffleSplit
和cross_validation.StratifiedShuffleSplit
中的train_size
推断test_size
的可能性。将函数
sklearn.metrics.zero_one
重命名为sklearn.metrics.zero_one_loss
。请注意,sklearn.metrics.zero_one_loss
的默认行为与sklearn.metrics.zero_one
不同:normalize=False
已更改为normalize=True
。将函数
metrics.zero_one_score
重命名为metrics.accuracy_score
。datasets.make_circles
现在具有相同数量的内点和外点。在朴素贝叶斯分类器中,
class_prior
参数已从fit
移动到__init__
。
人员#
按提交次数列出的 0.13 版本贡献者名单。
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
7 Tadej Janež
6 Brian Cajes
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006