shap.datasets.imdb

shap.datasets.imdb(n_points=None)[源代码]

返回经典的IMDB情感分析训练数据,打包得很好。

参数:
n_pointsint, 可选

要采样的数据点数量。如果为 None,则使用整个数据集。

返回:
包含文本数据和表示标签的numpy数组的列表元组。

注释

完整数据位于:http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz

使用数据时引用的论文是:http://www.aclweb.org/anthology/P11-1015

示例

要获取处理后的文本数据和标签:

text_data, labels = shap.datasets.imdb()