load_data
functionkeras.datasets.reuters.load_data(
path="reuters.npz",
num_words=None,
skip_top=0,
maxlen=None,
test_split=0.2,
seed=113,
start_char=1,
oov_char=2,
index_from=3,
)
加载Reuters新闻专线分类数据集.
这是一个包含11,228条来自Reuters的新闻专线的数据集,标记了46个主题.
这最初是通过解析和预处理经典的Reuters-21578数据集生成的,但预处理代码不再与Keras打包在一起.更多信息请参见GitHub讨论.
每条新闻专线编码为单词索引(整数)列表.为了方便起见,单词按其在数据集中的总体频率进行索引,因此例如整数"3”表示数据中第3个最常见的单词.这允许快速过滤操作,例如:"只考虑最常见的10,000个单词,但排除最常见的20个单词”.
按照惯例,"0”不代表特定单词,而是用于编码任何未知单词.
参数:
path: 缓存数据的位置(相对于~/.keras/dataset
).
num_words: 整数或None.单词按其在训练集中的出现频率排序,只保留最常见的num_words
个单词.任何不常见的单词将在序列数据中显示为oov_char
值.如果为None,则保留所有单词.默认为None
.
skip_top: 跳过出现频率最高的N个单词(可能不具有信息性).这些单词将在数据集中显示为oov_char
值.0表示不跳过任何单词.默认为0
.
maxlen: 整数或None.最大序列长度.任何较长的序列将被截断.None表示不截断.默认为None
.
test_split: 介于0.
和1.
之间的浮点数.用作测试数据的数据集比例.0.2
表示数据集的20%用作测试数据.默认为0.2
.
seed: 整数.用于可重复数据混洗的种子.
start_char: 整数.序列的开始将用此字符标记.0通常是填充字符.默认为1
.
oov_char: 整数.词汇表外字符.由于num_words
或skip_top
限制而被剪切的单词将替换为此字符.
index_from: 整数.实际单词从此索引及以上开始索引.
返回:
Numpy数组元组: (x_train, y_train), (x_test, y_test)
.
x_train
, x_test
: 序列列表,这些序列是索引(整数)列表.如果指定了num_words参数,则可能的最大索引值为num_words - 1
.如果指定了maxlen
参数,则可能的最大序列长度为maxlen
.
y_train
, y_test
: 整数标签列表(1或0).
注意: "词汇表外”字符仅用于在训练集中出现但在当前未被包含的单词,因为它们未达到num_words
的限制.在训练集中未见但在测试集中出现的单词已被简单跳过.
get_word_index
functionkeras.datasets.reuters.get_word_index(path="reuters_word_index.json")
检索一个将单词映射到其在Reuters数据集中索引的字典.
实际单词索引从3开始,其中3个索引保留给: 0(填充),1(开始),2(oov).
例如,单词"the”的索引是1,但在实际训练数据中,单词"the”的索引将是1 + 3 = 4.反之,要使用此映射将训练数据中的单词索引转换回单词,索引需要减去3.
参数:
path: 缓存数据的位置(相对于~/.keras/dataset
).
返回: 单词索引字典.键是单词字符串,值是它们的索引.