Keras 3 API 文档 / 内置小型数据集 / 路透社新闻分类数据集

路透社新闻分类数据集

[source]

load_data function

keras.datasets.reuters.load_data(
    path="reuters.npz",
    num_words=None,
    skip_top=0,
    maxlen=None,
    test_split=0.2,
    seed=113,
    start_char=1,
    oov_char=2,
    index_from=3,
)

加载Reuters新闻专线分类数据集.

这是一个包含11,228条来自Reuters的新闻专线的数据集,标记了46个主题.

这最初是通过解析和预处理经典的Reuters-21578数据集生成的,但预处理代码不再与Keras打包在一起.更多信息请参见GitHub讨论.

每条新闻专线编码为单词索引(整数)列表.为了方便起见,单词按其在数据集中的总体频率进行索引,因此例如整数"3”表示数据中第3个最常见的单词.这允许快速过滤操作,例如:"只考虑最常见的10,000个单词,但排除最常见的20个单词”.

按照惯例,"0”不代表特定单词,而是用于编码任何未知单词.

参数: path: 缓存数据的位置(相对于~/.keras/dataset). num_words: 整数或None.单词按其在训练集中的出现频率排序,只保留最常见的num_words个单词.任何不常见的单词将在序列数据中显示为oov_char值.如果为None,则保留所有单词.默认为None. skip_top: 跳过出现频率最高的N个单词(可能不具有信息性).这些单词将在数据集中显示为oov_char值.0表示不跳过任何单词.默认为0. maxlen: 整数或None.最大序列长度.任何较长的序列将被截断.None表示不截断.默认为None. test_split: 介于0.1.之间的浮点数.用作测试数据的数据集比例.0.2表示数据集的20%用作测试数据.默认为0.2. seed: 整数.用于可重复数据混洗的种子. start_char: 整数.序列的开始将用此字符标记.0通常是填充字符.默认为1. oov_char: 整数.词汇表外字符.由于num_wordsskip_top限制而被剪切的单词将替换为此字符. index_from: 整数.实际单词从此索引及以上开始索引.

返回: Numpy数组元组: (x_train, y_train), (x_test, y_test).

x_train, x_test: 序列列表,这些序列是索引(整数)列表.如果指定了num_words参数,则可能的最大索引值为num_words - 1.如果指定了maxlen参数,则可能的最大序列长度为maxlen.

y_train, y_test: 整数标签列表(1或0).

注意: "词汇表外”字符仅用于在训练集中出现但在当前未被包含的单词,因为它们未达到num_words的限制.在训练集中未见但在测试集中出现的单词已被简单跳过.


[source]

get_word_index function

keras.datasets.reuters.get_word_index(path="reuters_word_index.json")

检索一个将单词映射到其在Reuters数据集中索引的字典.

实际单词索引从3开始,其中3个索引保留给: 0(填充),1(开始),2(oov).

例如,单词"the”的索引是1,但在实际训练数据中,单词"the”的索引将是1 + 3 = 4.反之,要使用此映射将训练数据中的单词索引转换回单词,索引需要减去3.

参数: path: 缓存数据的位置(相对于~/.keras/dataset).

返回: 单词索引字典.键是单词字符串,值是它们的索引.