dump_svmlight_file#
- sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)#
将数据集以svmlight / libsvm文件格式转储。
这种格式是基于文本的格式,每行一个样本。它不存储零值特征,因此适用于稀疏数据集。
每行的第一个元素可以用来存储一个目标变量以进行预测。
- Parameters:
- X{array-like, sparse matrix} of shape (n_samples, n_features)
训练向量,其中
n_samples
是样本数量,n_features
是特征数量。- y{array-like, sparse matrix}, shape = (n_samples,) or (n_samples, n_labels)
目标值。类标签必须是整数或浮点数,或者用于多标签分类的整数或浮点数数组。
- fstr or file-like in binary mode
如果是字符串,指定包含数据的文件路径。 如果是类文件对象,数据将被写入f。f应以二进制模式打开。
- zero_basedbool, default=True
列索引是否应从零开始(True)或从一开始(False)。
- commentstr or bytes, default=None
插入文件顶部的注释。这应该是一个Unicode字符串,将被编码为UTF-8,或者是ASCII字节字符串。 如果给出了注释,那么它前面会有一个标识文件是由scikit-learn转储的注释。请注意,并非所有工具都能解析SVMlight文件中的注释。
- query_idarray-like of shape (n_samples,), default=None
包含成对偏好约束的数组(svmlight格式中的qid)。
- multilabelbool, default=False
样本可以有多个标签(参见 https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)。
Added in version 0.17: 参数
multilabel
以支持多标签数据集。
Examples
>>> from sklearn.datasets import dump_svmlight_file, make_classification >>> X, y = make_classification(random_state=0) >>> output_file = "my_dataset.svmlight" >>> dump_svmlight_file(X, y, output_file)